为啥ElasticSearch搜索那么快？倒排索引又是啥？ - 代码天地

为啥ElasticSearch搜索那么快？倒排索引又是啥？

其他 2021-04-06 22:33:49 阅读次数: 0

在搜索引擎中包含很多的文件，每个文件都有对应的ID，文件内容就是系列关键词的集合（每个关键词也有对应ID）。

例如“文档1”经过分词，提取了100个关键词，会记录每个关键词在文档中的出现次数和出现位置。

一、倒排索引

假如给你一个文本库，现在让你去找出所有包含“Hello”这个单词的文档，并按该单词出现的频率高低进行权重，即出现次数最多的文本优先展示。

1.1 正排索引

倒排索引是相对于正排索引来说的，对于上面的场景，先看正排索引会怎么做：

如果是正排索引，结构如下：

可以看到正排索引是以文档为第一层，也就是说如果要搜索包含关键词1的文档，那么所有文档都需要扫描，记录哪些文档包含了关键词1，最后返回结果。

1.2 倒排索引

上面介绍了正派索引，可以看到在根据某个关键词进行搜索时需要扫描所有文档，这个效率就太低了，要是文档少还好，要是海量文档，肯定影响影虎体验。

于是就出现了倒排索引来解决上面的问题，倒排索引结构如下：

可以看出区别了吧，与正排索引不同，倒排索引是关键词为第一层。创建倒排索引首先要将每个文档拆分成独立的词，然后创建一个包含所有不重复词条的集合，最后列出每个词条在哪个文档出现过。

举个例子：

key_word	doc1	doc2
hello	√	×
ok	√	√
day	×	×
haha	√	√
lucy	√	×
lily	×	√
good	×	√
two	√	×
enen	√	×

若我们搜索hello ok，就可以得到下面的结果：

可以看到doc1比doc2的匹配度高，优先返回。

倒排索引的好处是啥？那就是当你搜索某个关键词的时候，就直接返回包含了该关键词的文档了。效率大大提高，快得不是一星半点。ES底层的lucene利用的就是这种倒排索引方式来做到快速的搜索。

总结来说，正排索引和倒排索引的区别就体现在包含关系上，正排索引是去记录某个文档包含哪些关键字，倒排索引就是记录某个关键字在哪些文档里出现过。

猜你喜欢

转载自blog.csdn.net/weixin_41231928/article/details/111657805

为啥ElasticSearch搜索那么快？倒排索引又是啥？

redis为啥那么快？

【ElasticSearch】ElasticSearch的倒排索引

ElasticSearch 倒排索引、分词

Elasticsearch 倒排索引 + 分词

elasticsearch倒排索引与分词

对ElasticSearch倒排索引的理解

elasticsearch 倒排索引学习

elasticsearch(3)倒排索引

Elasticsearch的倒排索引

ElasticSearch-倒排索引

ElasticSearch 倒排索引

elasticsearch 倒排索引原理

（05）ElasticSearch 倒排索引

Elasticsearch - 倒排索引原理

Elasticsearch 原理——倒排索引

Elasticsearch之倒排索引

聊聊 Elasticsearch 的倒排索引

ElasticSearch（7）---倒排索引

【elasticsearch】倒排索引的原理

ElasticSearch关于倒排索引

Elasticsearch倒排索引

Elasticsearch 倒排索引的理解

ElasticSearch为啥这么快

全文搜索与倒排索引

「Elasticsearch + Lucene」搜索引擎的架构、倒排索引和搜索过程

elasticsearch-倒排索引原理

【ElasticSearch】（四）浅析倒排索引

elasticsearch 笔记十九：倒排索引

Elasticsearch 倒排索引核心原理

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)