分享 Lucene 5.5 开发手册

2016-08-12 Eric Wang

Lucene

Lucene和Solr的历史版本 Lucene历史版本，不妨点进去看看，会发现Lucene的版本更新很频繁，所以Lucene的Doc注释比JDK的Doc注释差太多，在研读Lucene In Action的过程中，发现此书的Lucene版本为3.0，而自己使用的Lucene版本是5.5，所以会有诸多冲突之处，现聊记之，以备查用。另外附上Solr历史版本。在学习Lucene过程中，官方推荐的Lucene索引查看工具是Luke，下载地址点我。 Lucene API变动相关 Field类中的枚举Index已被废弃，转而采用FieldType，并通过setIndexOptions方法设置索引选项 IndexWriter的optimi 继续阅读 »

分享 使用DocumentStoredFieldVisitor提高Lucene检索速度

2017-05-31 Eric Wang

Lucene

FieldSelector 提高Lucene检索性能的方法有很多种，这里简单介绍一种常用且便捷可行的方法快速提高Lucene检索性能。在早期的Lucene版本中，使用FieldSelector来决定哪些Fields应该被加载，并以何种方式加载，但是在LUCENE-3309中该接口被废弃，并且提出了新的替代接口StoredFieldVisitor。 FieldCache 另一种提高检索性能的方案是使用FieldCache来缓存Lucene的term values信息，不过该接口目前已被移至org.apache.lucene.uninverting包下，并且访问权限变成包级私有，也就是说，用户再也无法直接使用FieldCache了继续阅读 »

分享 Lucene 6.0 实战（4）-文本分析器

2016-05-23 Eric Wang

Lucene

Analyzer简介在Lucene的org.apache.lucene.analysis模块中提供了顶层的抽象类Analyzer，Analyzer主要是用来构建TokenStreams，如果想实现自定义的Analyzer，必须覆写createComponents(String)方法，并定义自己的TokenStreamComponents。为什么要有Analyzer呢？对于Lucene而言，不管是索引还是检索，都是针对纯文本而言，对于纯文本的来源可以是PDF，Word，Excel，PPT，HTML等，Lucene对此并不关心，只要保证传递给Lucene的是纯文本即可。而通常情况下，对于大量的文本，用户在检索的时候不可能全部继续阅读 »

分享 Lucene 中获取没有存储的字段值的几种方法

2017-10-10 Eric Wang

Lucene

一般来说，如果想要从Lucene索引中获取Field的值，那么需要在索引阶段设置Field.Store.YES才可以，然后在搜索阶段得到TopDocs对象之后，用它去获取ScoreDoc再取出Document，使用Document获取存储在索引中的值。但是我们都知道，存储字段是需要硬盘空间的，如果想要追求极致的存储空间并且获取Field的值，那么在不存储的情况下，如何获取呢？其实仔细思索一下，在我们只索引不存储的情况下，Lucene依然可以判断搜索是否命中，这说明在Lucene索引中依然存有一份Field的值，这样在搜索阶段才能判断是否匹配。本文就是探讨在这种情形下，使用Lucene的核心包获取没有存储的Field的值的几种方法，如继续阅读 »

分享 Lucene 6.0 实战（1）-创建索引

2016-05-20 Eric Wang

Lucene

引言 Lucene6.0于2016年4月8日发布，要求最低Java版本是Java 8。相信大多数公司的数据库都需要采用分库分表等一些策略，而对于某些特定的业务需求，分别从不同的库不同的表中去检索特定的数据显得比较繁琐，而Lucene正好可以解决某些特殊需求，对于不同库不同表中的数据先建立全量索引，然后将需要检索的数据写入某个单独的表中，供其它业务需求方查询，以后的每天只需要做增量索引并写入数据表即可。鉴于最近一直在做Lucene相关方面的工作，而本人一向又比较喜欢使用最新发布的版本，而网络上这类资源极少，故将一些要点及示例整理出来，本文主要从实战角度来介绍Lucene 6.0的使用，不涉及过多原理方面的东西，但是对于一些核继续阅读 »

分享 Lucene的索引文件锁原理

2016-11-23 Eric Wang

Lucene

环境 Lucene 6.0.0 Java "1.8.0_111" OS Windows 7 Ultimate 线程安全在Lucene中，打开一个IndexWrite之后，就会自动在索引目录中生成write.lock文件，这个文件中并不会有内容，不管是在索引打开期间还是在索引关闭之后，其大小都为0KB，并且在IndexWriter关闭之后，并不会删除该文件。如果同时打开多个IndexWriter的话，后打开的IndexWriter就会抛出LockObtainFailedException异常。这是个很重要的保护机制，因为若针对同一索引打开两个writer的话，会导致索引损坏。所以Lucene中的锁主要针对并发写的情况，在写继续阅读 »

分享 Lucene读写NFS文件系统异常

2016-08-12 Eric Wang

Lucene

Caused by: java.lang.InternalError: a fault occurred in a recent unsafe memory access operation in compiled Java code at org.apache.lucene.store.DataInput.readVInt(DataInput.java:134) ~[lucene-core-5.5.0.jar:5.5.0 2a228b3920a07f930f7afb6a42d0d20e184a943c - mike - 2016-02-16 15:18:34] at org.apache.lucene.codecs.blocktr 继续阅读 »

分享 Lucene 6.0 实战（5）-索引搜索器IndexSearcher

2016-05-24 Eric Wang

Lucene

Lucene的主要搜索API 一个简单的搜索应用主要包括索引和搜索两部分，在Lucene中，IndexSearcher类是用于对索引中文档进行搜索的核心类，它有几个重载的搜索方法，可以使用最常用的方法对特定的项进行搜索，一个项由一个字符串类型的域值和对应的域名构成。现将搜索相关API汇总如下 | 类 | 目的 | | ------------ | ------------ | | IndexSearcher | 搜索索引的核心类。所有搜索都通过IndexSearcher进行，它们会调用该类中重载的search方法 | | Query及其子类 | 封装某种查询类型的具体子类。Query实例将被传递给IndexSearcher 继续阅读 »

分享 Lucene 6.0 目录结构和功能模块

2016-09-27 Eric Wang

Lucene

Lucene英文目录结构和功能模块 - core: Lucene core library - analyzers analyzers-common: Analyzers for indexing content in different languages and domains. analyzers-icu: Analysis integration with ICU (International Components for Unicode). analyzers-kuromoji: Japanese Morphological Analyzer analyzers-morfologik: Anal 继续阅读 »

分享 Lucene 分组统计详解

2017-11-15 Eric Wang

Lucene

抛出问题在 RDBMS 中，我们可以使用 GROUP BY 来对检索的数据进行分组，同样地，想要在 Lucene 中实现分组要如何做呢？首先思考如下几个问题 - Lucene 是如何实现分组的？ - 用来分组的字段（域）或者说 Field 如何添加？ - 组的大小如何设置？ - 组内大小如何设置？ - 如何实现组的分页？ - 如果结果集超过了组内大小，可以通过分页解决，那么如果结果集超过了组大小的上限，如何解决？ - 如何实现单类别分组，即类似SQL中的 GROUP BY A - 如何实现多类别分组，即类似SQL中的 GROUP BY A, B 从 SQL 的 GROUP BY 说起如果分组后面只有一个字段，如 GROUP 继续阅读 »