作者:SUNNY
时间:2018-05-23
故障现象
Pending tasks任务一直有堆积,线上createindex等无法完成。
原因分析
客户端存在一定时写数据脚本,脚本中会不断往统一索引创建type,并写数据,造成大量put mapping任务,而此任务又是高优先级,造成任务堆积,无法很快完成创建索引等操作。
原因理解
先从Elasticsearch pending-task说起:
pendingtask只能由主节点来进行处理,这些任务包括创建索引并将shards分配给节点。任务分优先次序。如果任务的产生比处理速度更快,将会产生堆积。如果存在任务堆积,集群存在较大隐患,需要排查集群的任务,确认原因。
官方说明
另外,在5.6.4版本中,提供了一组TaskManagement API。
在出现故障时,集群中会出现pendting_tasks列表不为0,并且好几个任务处理时间一直较长,有的task甚至超过1min。
curl -XGET http://domain/_cluster/pending_tasks?pretty
priority参数说明:
各字段含义可以参考:
https://blog.csdn.net/napoay/article/details/73100110?locationNum=9&fps=1
根据实际存在的task列表来看,是put-mapping任务耗时操作较大。接下来,就需要找到是针对哪个索引的操作会造成这些任务(可以借助kibana monitor或者task API)。
找到异常的索引,排查对应任务,如下是造成异常的脚本任务
对应API为PUT doc(PUT /index/type/id),但不同的是,脚本中的type_name每次不同,造成type不断新增。
在Elasticsearch中,每次新增数据后,会进行索引,但是type增加之后,会put mapping。从实际来看,put-mapping是一个高优先级的操作,而且需要master管理,当mapping数量很大时,会造成后续mapping操作很耗时,而且put-mapping还是一个高优任务,会阻塞其他创建索引等任务。
关于mapping可以参考:https://blog.csdn.net/lvhong84/article/details/23936697
官方说明:
实际验证
停掉对应索引写操作之后,pending-task很快消失。
小结
1, 针对某索引不断新增type,会造成putmapping,也是一个非常耗时的任务。
2, Create-fields如果只是监控,需要把type变量固定。
3, 需要对Elasticsearch基本概览了解:http://blog.pengqiuyuan.com/ji-chu-jie-shao-ji-suo-yin-yuan-li-fen-xi/