监测与决策

一、生产环境我们都需要监测什么?

  1. 资源监测,对系统基础设施的健康度进行监测,包括网络与服务器节点的监测,监测内容包括网络连接与拥堵状态、CPU 负载和内存及外部存储空间的使用状况等。

  2. 应用监测,对应用程序的运行健康度进行监测,例如,应用程序进程是否存在,是否能正常提供对外服务,是否有功能映陷,是否能正常连接数据库,是否有超时现象,是否有服务抛出的异常和告警,是否可以及时扩容以应对突增的大量请求等。

  3. 业务监测,是对业务指标健康度的监测。例如,对电商网站来说,应当包括但不限于实时的用户访问量、具体页面的浏览数、转化率、订单量和交易额等。

二、数据监测流程是什么样的?

1984d2621d9d6667741609e5fc9cd1f9.png

  1. 采集上报:将事先定义的事件数据在当地采集并上报。

  2. 数据整理:对各数据源上报后的数据进行收集、清洗和整理。

  3. 实时分析:对实时数据进行分析处理。

  4. 离线分析:通过大量数据进行模型或规则提取。

  5. 结果输出:将实时和离线分析的结果展现,供决策参考。

    扫描二维码关注公众号,回复: 15690475 查看本文章
  6. 问题决策:根据上一步的输出,人为或自动给出下一步的行动判定,同时将判定记录保存下来,以便为后续决策提供依据。

  7. 数据存储:离线的原始数据、分析数据以及处理记录的保存。

  8. 自动修复与运维执行体系的接口,它需要将修复指令发送给运维执行体系,由执行体系将指令分发到对应节点,并进行相应的操作。

三、数据格式都包含哪些信息?

通常包含这两类信息:基础信息和扩展信息。

基础信息 需要描述最基础的应用背景信息,包括 4 个 W:

  1. Who (哪一个用户或服务)

  2. When (什么时间)

  3. Where (什么地点)

  4. What (做了什么)

扩展信息 是为了数据更好的扩展性,以应对不同业务的监测统计需求,通常会由各业务团队自行定义、解析和使用。

四、如何衡量监测数据体系的能力?

可以从 3 个维度来衡量:

  1. 正确性,即收集到的数据与事实的一致性。

  2. 全面性,即收集到的数据信息是否足以支持团队做出决策。

  3. 及时性,即数据的发生到能够支持决策所需要的处理时间足够短。

了解更多:https://t.zsxq.com/08AGFfCK3

推荐阅读

  1. 持续交付 2.0

  2. 价值探索环

  3. 快速验证环

  4. 组织文化

  5. 软件系统架构

  6. 需求协作管理

  7. 部署流水线原则

  8. 利于集成的分支策略

  9. 持续集成

  10. 自动化测试策略

  11. 软件配置管理

  12. 低风险发布

加入读者圈子

82fa0d551a12d8c5bd104dbc869e89da.jpeg

猜你喜欢

转载自blog.csdn.net/XinLiangTalk/article/details/128295690
今日推荐