减少系统告警?你的运维创新还差 Ta

随着竞争的日趋激烈,创新业务的速度成为企业决胜市场的关键。对于企业的运维人员来说,在传统运维模式冗长的处理流程引导下,面对频繁更新的业务需求和不断压缩的系统上线时间,常常因为不能及时处理 IT系统告警,而受到业务部门投诉,成为“被动运维”模式下忙乱的“救火队员”。


对于多数使用传统技术来管理系统数据的企业来说,常常因为缺乏有效的技术手段,而让运维团队不堪重负。AIOps(Algorithmic IT Operations),旨在通过全新的技术手段,增强对系统问题及异常的洞察,在系统故障出现之前采取修补措施,从而避免系统停机和业务中断。

对于系统告警问题来说,AIOps 具体做了哪些创新呢?

从二维到三维,创新运维思

对于减少告警问题,尝试通过重复告警压缩、事件关联归并、告警自动升级、工单流程优化等方法来解决,但这些都是基于“告警必然会发生”给出的方案。对此,甲骨文公司选择将当前流行的“降维思考”运用到新的解决方案中,希望借助技术手段,预测系统故障,提前解决潜在问题,从根源上减少告警数量。


一张白纸上的两个点,如何能缩短两点的距离?在二维世界解决这个问题很难,但在三维世界只需要折叠将两点重合即可将距离缩短为零。

从被动到主动,革新运维模

AIOps 借助构架云端不断调优的数学模型,实现对企业运维数据的分析和洞察,并以此预测系统异常,帮助运维人员提前解决系统潜在故障,实现运维模式从被动到主动的转变,开启新一轮的运维模式变革。


考虑到精准模型对潜在问题预测非常有效,甲骨文公司选择利用现有的大量企业级 AIOps 成功案例中的海量 IT 运维数据对模型进行随时训练,以此完成对模型的迭代和调优,并最终实现:即使只发生过一次的故障或异常,AIOps 就会将其标示出来,以此帮助运维人员提前处理。



借此,AIOps 不仅帮助企业真正做到了防范于未然,更让运维人员不再专注于“救火队员”的角色,通过自动化、智能化的技术手段,实现对 IT 资源的高效利用和快速交付。


猜你喜欢

转载自blog.csdn.net/hdq1745/article/details/80955428
TA