Elasticsearch核心技术与实战学习笔记 41 | 剖析分布式查询及相关性算分 - 代码天地

Elasticsearch核心技术与实战学习笔记 41 | 剖析分布式查询及相关性算分

其他 2020-06-27 10:08:20 阅读次数: 0

一序

本文属于极客时间Elasticsearch核心技术与实战学习笔记系列。

二分布式搜索的运行机制

ES 的搜索，会分两阶段进行
- 第一阶段 - QUERY
- 第二阶段 - Fetch
Query - then - Fetch

2.1 Query 阶段

用户发出搜索请求到 ES 节点。节点收到请求后，会以 Coordinating 节点的身份，在 6 个主副分片中随机选择 3 个分片，发送查询请求
被选中的分片执行查询，进行排序。然后，每个分片都会返回 From + Size 个排序后的文档 Id 和排序值给 Coordinating 节点

2.2 Fetch 阶段

Coordinating Node 会将 Query 阶段，从每个分片获取的排序后的文档 Id 列表，重新进行排序。选取 From 到 From + Size 个文档的 Id
以 multi get 请求的方式，到相应的分片获取详细的文档数据。

2.3 Query Then Fetch 潜在的问题

性能问题

每个分片上需要查的文档个数 = from + size
最终协调节点需要处理：number_of_shard * (from + size)
深度分页

相关性算分

每个分片都基于自己的分片上的数据进行相关度计算。这会导致打分偏离的情况，特别是数据量很少时，如果文档总数很少的情况下，如果主分片大于 1，主分片越多，相关性算分会越不准。

2.4 解决算分不准的方法

数据量不大的时候，可以将主分片数设置为 1
当数据量足够大时候，只要保证文档均匀分散在各个分片上，结果一般就不会出现偏差
使用 DFS Query Then Fetch
搜索的 URL 中指定参数 “_search?search_type=dfs_query_then_fetch”
到每个分片把各分片的词频和文档频率进行搜集，然后完整的进行一次相关性算分，消耗更加多的 CPU 和内存，执行性能低下，一般不建议使用

3. demo：

数据准备：

DELETE message

POST message/_doc?routing=1
{
  "content":"good"
}

POST message/_doc?routing=2
{
  "content":"good morning"
}

POST message/_doc?routing=3
{
  "content":"good morning everyone"
}
POST message/_search
{
  "query": {
    "term": {
      "content": {
        "value": "good"
      }
    }
  }
}

使用es7 默认1 个主分片测试，不存在分布式查询算分不准的情况，Good 应该排在第一

改为20分片：打分是一样的。

如果使用explain查看，会发现文档分散到不同的shard上，所以分数一样。

如果执行 DFS Query Then Fetch ，结果和一个分片上一致

猜你喜欢

转载自blog.csdn.net/bohu83/article/details/106964379

Elasticsearch核心技术与实战学习笔记 41 | 剖析分布式查询及相关性算分

Elasticsearch核心技术与实战学习笔记第四章 26 | 搜索的相关性算分

SpringCloud系列（十六）[分布式搜索引擎篇] - DSL 查询及相关性算分的学习 (部分)

Elasticsearch核心技术与实战学习笔记 39 | 文档分布式存储

Elasticsearch核心技术与实战学习笔记 33 | 综合排序：Function Score Query优化算分

Elasticsearch核心技术与实战学习笔记 32 | 使用Search Template和Index Alias查询

Elasticsearch核心技术与实战学习笔记 37 | 集群分布式模型及选主与脑裂问题

Elasticsearch核心技术与实战学习笔记 29 | 单字符串多字段查询：Multi Match

Elasticsearch核心技术与实战学习笔记 23 | 第一部分总结

Elasticsearch核心技术与实战学习笔记 55 第二部分总结回顾

Elasticsearch核心技术与实战学习笔记系列第三章 17 Query String&Simple Query String查询

Elasticsearch核心技术与实战学习笔记第四章 27 | Query&Filtering与多字符串多字段查询

Elasticsearch核心技术与实战学习笔记第四章 28单字符串多字段查询：Dis Max Query

Elasticsearch核心技术与实战学习笔记第三章 19 | 显式Mapping设置与常见参数介绍

Elasticsearch核心技术与实战-学习笔记

Elasticsearch核心技术与实战学习笔记

LLVM学习笔记（41）

leetcode学习笔记41

Vue核心技术-41,vue-router-导航守卫

C++学习(41)

oracle学习札记41

MySQL学习41条

学习笔记(41):Python实战编程-按钮

Python学习--day41-mysql多表查询

41

41.Elasticsearch Jest实战深入详解

41张图解 elasticsearch 原理

分布式核心技术

C语言学习(41)

linux学习lesson41

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)