线上问题排查总结

  1. 线上故障产生原因
    1. 个人原因:基础不牢靠/自测不充分/前瞻性不足
    2. 团队原因:没有标准的研发流程,测试不充分
  2. 应急流程
    1. 保留现场:在不影响用户体验前提下,保留现场数据
    2. 恢复系统:初步分析原因,可通过回滚快速恢复
    3. 分析事故原因及影响:
    4. 线上事故回溯
  3. 定位/思路
    1. 一般分为可复现和不能稳定复现两类,可复现一般日志可以看出问题,一般不能稳定复现的一般与多线程有关:
      1. 通过 code review/ 压测/调用代码来增加多线程问题复现的概率;
      2. 利用相关工具分析线程堆栈,内存使用情况,死锁等;
      3. 宿主机的负载均衡,包括:cpu/磁盘/内存/网络IO等
    2. 系统最近是否又上线
    3. 基础平台最近是否有升级
    4. 依赖系统最近是否有上线
    5. 是否运营误操作导致故障
    6. 是否有网络抖动
    7. 业务是否上量
    8. 监控层面
      1. 系统层面:系统cpu利用率是否正常/系统负载/内存使用情况/网络IO/磁盘负载/IO等待/交换区使用/线程数/打开的文件句柄的等
      2. 应用层面:接口响应时间/吞吐量/调用频次/接口成功率
      3. 数据层面:数据库负载/慢sql/数据库连接数/缓存连接数/占用内存/吞吐量/响应时间/消息队列响应时间,负载/积压情况

猜你喜欢

转载自www.cnblogs.com/gaoqing502/p/12942594.html