7) 第二章索引：理解Lucene索引过程 - 代码天地

7) 第二章索引：理解Lucene索引过程

企业开发 2018-05-14 15:20:53 阅读次数: 1

Lucene索引的API非常简单，然而在其简易的API背后，它做了许多有趣的、相对复杂的操作。我们可以明确得将这些操作分为三条：抽取文本(extract text)；分析(analysis)；索引(index)。

1. 抽取文本并创建文档(document)

在用Lucene索引数据之前，必须先将其抽取为纯文本。第一章的例子中我们索引了扩展名为 .txt 的文件，它们很容易被索引。然而事情并非总是如此简单，如果我们要索引的数据来自PDF文件，或者是XML，又或是Microsoft Word文档，那么，我们必须先从中抽取出纯文本才能够用Lucene对其进行索引。好在事情不算复杂，同为开源框架的Tika可以帮我们高效的完成此项工作。

2. 分析

在为索引文件增加docuemt之前，Lucene会先进行一步操作：分析。分析的目的是将原文数据拆分成若干词元(token),同时进行一些可选操作，如：大小写转换，过滤"停词"等。

3. 索引

经过"分析"后的数据，就可以被索引了。Lucene采用反向索引(inverted index)的结构存储索引数据，反向索引也是现代web搜索引擎的核心。

4. 索引文件

Lucene的索引文件设计的非常精妙，它需要专门的话题来讨论。

猜你喜欢

转载自bun-ny.iteye.com/blog/1071473

7) 第二章索引：理解Lucene索引过程

第二章索引

14) 第二章索引：用Lucene索引数字

6) 第二章索引：Lucene索引的文档模型

13) 第二章索引：用Lucene索引日期和时间

两张类图理解lucene的索引过程

17) 第二章索引：优化索引(Optimizing)

8) 第二章索引：基本索引操作

第二章过程模型

第二章：安装zabbix过程

第二章软件过程

第二章-软件过程

Lucene In Action 第二章 2.3.1节向索引添加Document

Lucene的索引过程，非常简洁，

lucene 索引过程的核心类

Lucene——索引过程分析Index

11) 第二章索引：文档优先策略(Boosting)

16) 第二章索引：设置Field的截断

15) 第二章索引：设计用来排序的域

9) 第二章索引：Field的设置

12) 第二章索引：规则(Norms)

第二章创建高性能索引

路飞学城-7天集训-第二章

第二章 2.6/7 进程通信、线程

第二章练习题7a

第二章练习题7b

第二章练习题7c

Deep Learning with Python第二章（翻译）7未完

Lucene In Action 第二章 2.4.1 Field options for indexing

Elasticsearch源码分析之二------索引过程源码概要分析

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)