lucene 索引过程的核心类

IndexWriter

IndexWriter 是索引过程的核心组件。用于创建一个新的索引并把文档加到已有的索引中去。不能用于读取或搜索索引


**********************************************
Directory

Directory类描述了Lucene索引存放的位置,是个抽象的类
public abstract class Directory
extends Object
implements Closeable

FSDirectory继承Directory,具体实现在文件系统的一个目录下创建索引文件

**********************************************
Analyzer是个抽象类
public abstract class Analyzer
extends Object
implements Closeable

文本在被索引之前,需要经过分析器的处理,即分词处理,应用程序在IndexWriter之前要制定所需要使用的分析器,负责从将被索引的文本文件中提取词汇单元(tokens),并提出剩下的无用信息,例子
引用
http://qzxfl008.iteye.com/admin/blogs/1018962

***********************************************
Document

顾名思义文档的意思,一个Document代表多个域(Field)的集合。Document是承载数据的实体,

************************************************
Field


每个Field都对应于一段数据,这些数据在索引过程中可能被查询活着在索引表中被检索

Lucene提供四种不同类型的Field:
Keyword域——不需要被分析,但会被逐字地被索引并存储。该类适用于原始值,即需要别全部保留的Field,如URL,日期等

UnIndexed 域——既不需要被分析也不进行索引,但是该值同样被存储在索引文件中。适用于需要和搜索结果一起被现实出来的,但用户不会将它的值直接用于搜索的情形。但不适合存储大文本的索引

UnStored 域——与UnIndexed刚好相反,

Text 域——需要被分析切索引。

猜你喜欢

转载自qzxfl008.iteye.com/blog/1025545