ES中倒排索引机制 - 代码天地

ES中倒排索引机制

物联网 2023-08-15 18:10:08 阅读次数: 0

在ES的倒排索引机制中有四个重要的名词：Term、Term Dictionary、Term Index、Posting List。

Term（词条）：词条是索引里面最小的存储和查询单元。一段文本经过分析器分析以后就会输出一串词条。一般来说英文语境中词条是一个单词，中文语境中一个词条是分词后的一个词组。

此处涉及到分词器，分词器的作用是将一段文字分解为若干个词组，不同的分词器使用的分词算法不同，得到的分词结果也不同。
Term Dictionary（词典）：词典是词条的集合，顾名思义，词典中维护的是Term。词典一般是由文本集合中出现过的所有词条所组成的集合。
Term Index（词条索引）：由于词典中维护着文本中所有的词条，为了在其中更快的找到某个词条，我们为词条建立索引。通过压缩算法，词条索引的大小只有所有词条的几十分之一，因此词条索引可以存储在内存中，因此可以提供更快的查找速度。
Posting List（倒排表）：倒排表记录的是词条出现在哪些文档里，以及出现的位置和频率等信息。倒排表中的每条记录称为一个倒排项（posting）。

将以上概念类比到词典中，Term相当于词典中的词语，Term Dictionary相当于词典本身，Term Index相当于词典的目录。

举个栗子，假设现在我们输入系统多段文本，经过分词器分词后得到以下词条：

elastic
flink
hadoop
kafka
spark

ES倒排索引机制

我们使用ES进行全文搜索时，如图所示，系统首先会通过Term Index找到该Term在Term Dictionary中的位置，再通过倒排索引结构找到对应的Posting，从而定位到该词组在文本中的位置，完成一次搜索。

扫描二维码关注公众号，回复： 16213085 查看本文章

猜你喜欢

转载自blog.csdn.net/qq_32907195/article/details/132276101

ES中倒排索引机制

ES-倒排索引

ES简介及倒排索引

ES倒排索引原理

ES---倒排索引

ES倒排索引与分词详解

es_倒排索引详解

ES-倒排索引基础知识

ES高频面试问题：一张图带你读懂 Elasticsearch 中“正排索引（正向索引）”和“倒排索引（反向索引）”区别

倒排索引

向ClickHouse中引入倒排索引

ES倒排索引与三种Cache详细介绍

原创|ES广告倒排索引架构演进与优化

【漫画】ES原理必知必会的倒排索引和分词

ElasticSearch第四篇：ES核心概念与倒排索引

ElasticSearch基础：从倒排索引说起，快速认知ES

【Elasticsearch】ES精确查询和范围查询，ES时间字段排序实例，ES倒排索引介绍

搜索引擎中的爬虫和倒排索引技术

搜索引擎中的倒排索引是什么

正排索引与倒排索引

Elasticsearch中的倒排索引和读写操作原理解析

Elasticsearch中的倒排索引和读写操作原理解析

百万并发场景中倒排索引与位图计算的实践

倒排索引原理

solr 倒排索引

MapReduce倒排索引

spark实现倒排索引

Lucene倒排索引原理

ElasticSearch 倒排索引、分词

倒排索引介绍

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)