AIOps在美团的探索与实践——故障发现篇(整理)

原文地址
https://tech.meituan.com/2020/10/15/mt-aiops-horae.html

整理:

  1. 故障大致可分为 3 类:周期型,平稳型,无规律型。对于时序数据来说,最合适的算法可能是 CNN 。
  2. 异常数据的特征大致包括:
    - 周同比
    - 日环比
    - 波动比
    - 移动平均
    - 水平方向孤立森林特征
    - 垂直方向孤立森林特征
    - 余弦相关
    - 标准差
    - 熵
    - 斜率

将AI和运维很好地结合起来,这个过程需要三方面的知识:
1. 行业、业务领域知识,跟业务特点相关的知识经验积累,熟悉生产实践中的难题。
2. 运维领域知识,如指标监控、异常检测、故障发现、故障止损、成本优化、容量规划和性能调优等。
3. 算法、机器学习知识,把实际问题转化为算法问题,常用算法包括如聚类、决策树、卷积神经网络等。

相似:统一的数据上报和命名规范,源数据
差异:场景编排,多目标自动调整
 AIOps能力框架图

基础:异常检测,包括:周期型,平稳型,无规律型
扩展:根因分析
提升:故障止损,故障自愈
关联:知识图谱
 AIOps在故障管理方面的演进路线

时序数据自动分类
卷积神经网络分类:参考对Human Activity Recognition(HAR)进行分类的实践[7],我们用CNN(卷积神经网络)实现了一个分类器,该分类器在时序数据分类上表现优秀,准确率能达到95%以上。CNN在训练中会逐层学习时序数据的特征,不需要成本昂贵的特征工程,大大减少了特征设计的工作量。

特征选择及说明

特殊场景:
低峰期
节假日
整体抬升/下降

猜你喜欢

转载自blog.csdn.net/qq_21998289/article/details/114232177