lucene2.4源码学习2 lucene的基本文件学习

看看lucene各个文件和作用:








fnm文件图


fdt fsv文件图


tvx tvd tvf文件图



注意:.tvx,.tvd,.tvf这三个文件不是必须的,
当新建立的文档有Field.TermVector.WITH_POSITIONS_OFFSETS这个的时候才会创建。.tvx,.tvd,.tvf这些文件提供的是term在filed中的位置和频率信息。这个是正向的,就是知道一个文档包含哪些哪些term,以及这些term的频率和位置信息。  和tis,tii是相反的。tis是根据一个term,知道这个term在哪个文档。


包含正向信息的文件有:
 segments_N 保存了此索引包含多少个段,每个段包含多少篇文档。
 XXX.fnm 保存了此段包含了多少个域,每个域的名称及索引方式。
 XXX.fdx,XXX.fdt 保存了此段包含的所有文档,每篇文档包含了多少域,每个域保
存了那些信息。
 XXX.tvx,XXX.tvd,XXX.tvf 保存了此段包含多少文档,每篇文档包含了多少域,每
个域包含了多少词,每个词的字符串,位置等信息。

包含反向信息的文件有:
 XXX.tis,XXX.tii 保存了词典(Term Dictionary),也即此段包含的所有的词按字典顺序
的排序。
 XXX.frq 保存了倒排表,也即包含每个词的文档ID 列表。
 XXX.prx 保存了倒排表中每个词在包含此词的文档中的位置。

猜你喜欢

转载自huangyunbin.iteye.com/blog/1830451
今日推荐