案例分享|CPU监控异常

CPU使用率监控很关键,综合反应系统的负载情况,是监控的重要指标之一。CPU的使用率,对业务系统性能有重要的影响,根据CPU使用率监控,可以对系统或应用进一步分析调优。

4月25日22点,平台收到某县级医院HIS数据库服务器CPU使用率超出阈值报警,CPU使用率99%,远远高出预设的阈值 

告警信息

4月25日

HIS数据库 CPU使用率超出阈值。

事件持续1小时30分钟。

处理过程 

MOC工程师通知客户现场工程师,建议通过任务管理器查看占用CPU资源的进程,查看应用进程耗用CPU的情况。。

由于客户未在事件发生时间点查看占用CPU资源的进程,客户未能监控到非必要运行进程,因此未及时解决问题。MOC值守工程师持续跟进,并将HIS数据库报警记录再次发给客户进行提醒。

HIS系统是医院里比较重要的系统,需要多任务同时处理,并且需要数据库的长时间运行,所以对CPU的浮点运算能力要求特别高。为防止因为CPU使用率过高引起系统运行缓慢甚至宕机,二次提醒后,引起客户重视。

在LinkSLA在线专家建议下,客户工程师通过运行Process explorer,查看oracle.exe进程中各线程占用CPU的变化情况,查看Oracle.exe中的thread是否占用CPU。

客户通过监控,果然查到了占用CPU资源比较多的SQL语句进程,并进行优化处理,问题得到解决。

案例小结

HIS系统对CPU的浮点运算要求高,当HIS系统CPU使用率高达99%时,系统运行速度非常慢,但是过一会,CPU使用率又恢复正常值,系统运行速度恢复正常。这种现象容易麻痹客户,忽视系统中存在的问题。

HIS系统是医院核心系统,如发生宕机,将对医院业务产生严重影响。LinkSLA智能运维平台提前预警,快速定位跟踪解决,避免业务中断,保障系统健康运行。

在日常的运维环境中,想要保障系统监控稳定运行,CPU监控还需要监控这些内容。

CPU监控指标

windows操作系统监控指标

CPU空闲时间百分比

中断CPU时间百分比

特权模式CPU时间百分比

非空闲线程CPU时间百分比

linux操作系统监控指标

空闲CPU占比

CPU等待IO时间占比

系统CPU百分比

用户CPU百分比

平台采用机器学习算法进行异常检测,基于agent、snmp等方式来监控操作系统各个指标状态,对于强调周期性的指标,如CPU使用率,发现异常警,及时通知用户,持续跟进直到问题解决。

LinkSLA智能运维管家通过全链路的监控,打破运维孤岛。为用户提供高效降本的运维服务,及时处理服务器部件出现的问题,避免因异常故障导致宕机,甚至数据丢失,保障业务系统健康稳定运行。

猜你喜欢

转载自blog.csdn.net/LinkSLA/article/details/130521273