线上问题排查总结 - 代码天地

线上问题排查总结

其他 2020-05-23 15:21:51 阅读次数: 0

线上故障产生原因
1. 个人原因：基础不牢靠/自测不充分/前瞻性不足
2. 团队原因：没有标准的研发流程，测试不充分
应急流程
1. 保留现场：在不影响用户体验前提下，保留现场数据
2. 恢复系统：初步分析原因，可通过回滚快速恢复
3. 分析事故原因及影响：
4. 线上事故回溯
定位/思路
1. 一般分为可复现和不能稳定复现两类，可复现一般日志可以看出问题，一般不能稳定复现的一般与多线程有关：
  1. 通过 code review/ 压测/调用代码来增加多线程问题复现的概率；
  2. 利用相关工具分析线程堆栈，内存使用情况，死锁等；
  3. 宿主机的负载均衡，包括：cpu/磁盘/内存/网络IO等
2. 系统最近是否又上线
3. 基础平台最近是否有升级
4. 依赖系统最近是否有上线
5. 是否运营误操作导致故障
6. 是否有网络抖动
7. 业务是否上量
8. 监控层面
  1. 系统层面：系统cpu利用率是否正常/系统负载/内存使用情况/网络IO/磁盘负载/IO等待/交换区使用/线程数/打开的文件句柄的等
  2. 应用层面：接口响应时间/吞吐量/调用频次/接口成功率
  3. 数据层面：数据库负载/慢sql/数据库连接数/缓存连接数/占用内存/吞吐量/响应时间/消息队列响应时间，负载/积压情况

猜你喜欢

转载自www.cnblogs.com/gaoqing502/p/12942594.html

线上问题排查总结

java线上服务问题排查总结

线上问题排查

线上问题排查思路

线上java问题排查

线上应用问题排查

JVM线上问题排查

线上ZK问题排查

线上死锁问题排查

线上问题排查命令

网络-线上问题排查

线上排查问题相关文章总结

线上NG 502问题排查

linux java 线上问题排查

JVM线上问题排查命令

线上操作问题排查

redis线上问题排查解决

java线上服务问题排查

线上问题排查实战

BTrace:线上问题排查工具

线上问题排查利器Arthas

线上java JVM问题排查

Java线上问题排查技巧

排查线上内存泄漏问题

jvm线上内存问题排查

线上异常排查总结相关文章

线上排查神器arthas总结

线上问题排查常用命令，总结太全了，建议收藏！！

线上排查问题的利器——Btrace

线上性能问题初步排查方法(转)

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)