【产品分享】嘉为蓝鲸统一告警中心,系统可用的第一层保障!

运维工作的本质,就是保持系统可用,而在故障发生时,每个环节都能有一套说辞,唯独监控告警必须深入研究到底是哪里出了问题!

试想每天的工作,监控告警似乎是我们每天都会使用到的工具,查异常、处理告警等,可以说是保障系统可用性最重要的其中一环。

寓言 

当我们还是孩童的时候就已经听过监控告警最著名的案例《放羊的小孩》

故事中,顽皮的牧童为了好玩,多次发出“狼来了!”的无效告警,村民们在听到小孩的大呼后抄起各种工具急急忙忙的赶往牧地,而牧童也为村民们狼狈的扑空感到洋洋得意。

有一次,狼真的来了,但村里的人都已经对牧童的告警产生免疫,最后落得羊群全部被吃掉的下场。

现实运维中也是如此,每个人的精力有限,只要一天的告警超过几十条,且大多都是无关紧要的问题,长时间的“轰炸后”难免对告警产生轻视的心态。

先讲求覆盖完全,再讨论有效性

企业里往往存在好多套应用和系统,每个系统因为建设历史、业务团队不同等原因,可能存在使用好多不同套监控平台的情况。

对于数据中心运维团队而言,如果覆盖不够完整,那“省事”的层面的确是做到了,但发现问题的主动性也牺牲了。

所以一个监控告警平台应该具备对企业系统体系的告警源接入、纳管的能力,除了覆盖将当下的监控系统,也能随着业务的拓展而成长,让问题发现无死角。

“狼来了!”必须要有狼!

当你的企业越大、业务越多、层次越丰富,那么告警必然会越多。如果告警太多,有效的告警隐没在告警堆里,或是运维人员卸下对告警的防备,没有主动处理问题,那故障发生后追究起责任就麻烦了。

那么既然不希望告警泛滥,我们就需要在监控告警中体系加入“去芜存菁”的机制:

  • 依照需求划分告警维度将告警收敛;

  • 短时间内已发生的告警不再重复;

  • 对于已经预知会发生的告警进行过滤、屏蔽;

  • ......。

对的人做对的事情

从另外一个角度来看,不对的人获得不对的信息,其实变相的也是无效的告警。既然防患于未然是告警的首要之务,那么与其人人都能收到全部的告警,不如谁负责相关的作业就将告警发送给他,需要同步优化、讨论等非急迫性的问题可以后续在会议、邮件上再去研究。

虽然监控告警是第一层保障,但防护自然还是得做到位,分配是为了提高效率,但遗漏或是问题主要负责人恰好缺席或无法提供支持的情况还是难免,为确保问题必须有人进行处理,后面可以再设置响应时间在某个范围,如果超出这个范围没有响应,再分派给其他人去处理做为第二层防护。

人少,终端支持要多、自动化要好

互联网提供企业业务快速调整、成长的一个渠道,而对于运维支持而言似乎人再怎么多也不容易跟上业务的需求。

自动化也是一个提升效率的思路,对于操作流程固定、操作风险不高的告警,设置自动处理流程,减少人工处理的工作量。而实现自动化的基础是与运维体系其他模块的集成,如流程、CMDB、标准运维、其他终端等模块。

此外,上面提到的终端多元,是为了让运维人员能随时随地进行操作。如:PC、微信、钉钉等,尤其许多系统是需要7x24小时的可用,如果公司没有人值守就曝露在风险之中,那总是让同事在办公室里轮班既痛苦、成本又高。

 持续优化,服务体验越来越好

除了应急处理与防范,对于告警事件的统计与分析也至关重要,通过对组合数据与历史数据的全面分析,对运营有更深刻的洞察,沉淀告警问题的共性形成优化闭环。

嘉为蓝鲸统一告警中心

猜你喜欢

转载自blog.csdn.net/weixin_42556618/article/details/108056309