阿里云ECS运维:高CPU使用率是如何将CPU积分消耗殆尽的?

前言:有台阿里云的ECS,型号是T5突发性能实例,1 Core,2G,1M,Windows Server,近期出现运行缓慢现象,排查原因显示,和CPU积分这一概念有关系。

原标题:阿里云ECS ( T5突发实例)关于CPU积分的那些事儿

描述: 下午5点左右,ECS运行缓慢,具体表现为运行在上面的网站响应缓慢,在几分钟后甚至出现504错误。
在这里插入图片描述

ps:504错误代表网关超时(Gateway timeout),是指服务器作为网关或代理,但是没有及时从上游服务器收到请求。 服务器(不一定是Web 服务器)正在作为一个网关或代理来完成客户(如您的浏览器或我们的CheckUpDown 机器人)访问所需网址的请求。

在这里插入图片描述
问题表象: 发现该问题,第一反应,是web服务器tomcat运行慢,于是远程服务器查看原因,发现无法远程。
解决过程:
①使用windows的mstsc登录远程,提示“正在配置远程连接……”,持续了10分钟以
上。
在这里插入图片描述
②使用备用方案,使用阿里云控制台登录远程服务器,输入id,密码后,卡顿在欢迎界面,仍无法登录至桌面。
在这里插入图片描述
③拨打客服,后台检测到CPU占用过高,达到100%,无法处理请求。在此刻,mstsc提示,连接失败,“远程计算机已关闭远程连接”。
④客服继续查询,发现因为我使用的ECS是T5突发类型,CPU性能基线是10%,超过基线性能会使用CPU积分,而此时我的CPU积分亟待用尽,因此机器100%的进程只能用10%的CPU性能处理,因此卡顿。
⑤客服建议重启实例,尽管上面挂着生产的一个数据库,但迫不得已,只能重启。30分钟,实例恢复。


反思:
①ECS在正常运行了300天左右,为什么会突发异常?

  • 经核查发现,安全中心之前有发邮件,提示有异常程序和蠕虫病毒,但没有及时处理,此次ECS异常,高度怀疑是病毒行为。

②CPU积分到底是什么意思?T5的10%基线性能和CPU积分又有什么关系?

③既然是CPU积分消耗殆尽,导致CPU只能使用10%的基线性能,那么是什么原因导致了积分耗尽?

  • 经过排查发现,某个时间点开始,CPU以100%性能运行数个小时候,将积分耗尽,造成CPU性能降低至10%,最终导致整个ECS故障。

图1,总概况图,9月10号,0点,CPU高
在这里插入图片描述
图2,细节图,从9月9号7点开始,CPU开始升高,从1%的均值升至25%左右。
在这里插入图片描述
图3,细节图,9月9号晚11点,CPU达到97%
在这里插入图片描述
图4,细节图,9月10号零点,CPU峰值在这里插入图片描述
图5,细节图,9月10号1点,CPU降至10%
PS:事实上是,积分消耗尽了,最大只能使用10%CPU性能,整个服务器CPU还是满负荷运行,无法及时处理任何请求,因此部署的Tomcat无法有效利用CPU和内存,无法对外及时提供服务。
在这里插入图片描述
图6,CPU积分使用情况
PS:这台T5 ECS的积分可以最高累计至144,从9月9号下午7点开始消耗CPU积分,这意味着CPU从此刻开始高于10%的基线在运行,因此消耗了积分。
在这里插入图片描述
图7,可以看到,短短数个小时,CPU积分消耗殆尽。
在这里插入图片描述
图8,在ECS整个故障期间,只是CPU高占用,并没有出现异常的数据包,可以看到入网/出网数据都是很少的,只有20MB
在这里插入图片描述


windows server 日志排查
故障源头从9月9号开始,直至当天的故障发生,系统事件查看器记录了期间所有的日志。

在这里插入图片描述
将从ECS上导出的日志,在本地逐步分析
在这里插入图片描述
检查了所有日志,未发现有用信息。

2019年9月20日 23:04:59

仍在排查,运行中的两个病毒进程是怎样占用CPU的。

发布了135 篇原创文章 · 获赞 98 · 访问量 20万+

猜你喜欢

转载自blog.csdn.net/qq_35206244/article/details/101079046