记Elasticsearch 因不合理创建type导致集群故障

作者:SUNNY
时间:2018-05-23


故障现象

Pending tasks任务一直有堆积,线上createindex等无法完成。

原因分析

客户端存在一定时写数据脚本,脚本中会不断往统一索引创建type,并写数据,造成大量put mapping任务,而此任务又是高优先级,造成任务堆积,无法很快完成创建索引等操作。

原因理解

先从Elasticsearch pending-task说起:

pendingtask只能由主节点来进行处理,这些任务包括创建索引并将shards分配给节点。任务分优先次序。如果任务的产生比处理速度更快,将会产生堆积。如果存在任务堆积,集群存在较大隐患,需要排查集群的任务,确认原因。

官方说明

另外,在5.6.4版本中,提供了一组TaskManagement API。

在出现故障时,集群中会出现pendting_tasks列表不为0,并且好几个任务处理时间一直较长,有的task甚至超过1min。

curl -XGET http://domain/_cluster/pending_tasks?pretty

priority参数说明:

各字段含义可以参考:

https://blog.csdn.net/napoay/article/details/73100110?locationNum=9&fps=1

扫描二维码关注公众号,回复: 8711815 查看本文章

根据实际存在的task列表来看,是put-mapping任务耗时操作较大。接下来,就需要找到是针对哪个索引的操作会造成这些任务(可以借助kibana monitor或者task API)。

找到异常的索引,排查对应任务,如下是造成异常的脚本任务

对应API为PUT doc(PUT /index/type/id),但不同的是,脚本中的type_name每次不同,造成type不断新增。

在Elasticsearch中,每次新增数据后,会进行索引,但是type增加之后,会put mapping。从实际来看,put-mapping是一个高优先级的操作,而且需要master管理,当mapping数量很大时,会造成后续mapping操作很耗时,而且put-mapping还是一个高优任务,会阻塞其他创建索引等任务。

关于mapping可以参考:https://blog.csdn.net/lvhong84/article/details/23936697

官方说明:

实际验证

停掉对应索引写操作之后,pending-task很快消失。

小结

1, 针对某索引不断新增type,会造成putmapping,也是一个非常耗时的任务。

2, Create-fields如果只是监控,需要把type变量固定。

3, 需要对Elasticsearch基本概览了解:http://blog.pengqiuyuan.com/ji-chu-jie-shao-ji-suo-yin-yuan-li-fen-xi/

发布了67 篇原创文章 · 获赞 0 · 访问量 1783

猜你喜欢

转载自blog.csdn.net/zhinengyunwei/article/details/104042517