linux cpu显示信息

最近某台服务机器偶尔遇到了一种告警:cpu steal 过高;咨询了sre,sre解答是宿主机上的其它虚拟机负载较高,cpu抢占厉害;

正好借此机会了解下cpu的相关信息

=========================================================================

1 top命令输出的cpu信息

使用top命令查看cpu信息时会看到这样一行:

里面的各个值分别是什么意思了?

us:user cpu time or % cpu time spent in user space

sy:system cpu time or % cpu time spent in kernel space

ni:user nice cpu time or % cpu time spent on low priority processes

id:idle cpu time or % cpu time spent idle

wa:io wait cpu time or % cpu time spent in wait(on disk)

hi:hardware irq or % cpu time servicing/handling hardware interrupts

si:software irq or % cpu time servicing/handling software interrupts

st:cpu time in involuntary wait by virtual cpu while hypervisor is servcing another processor or cpu time stolen from a virtual machine

翻译为:

us:用户态使用的cpu时间比

sy:系统态使用的cpu时间比

ni:用作nice加权的进程分配的用户态cpu时间比

id:空闲的cpu时间比

wa:cpu等待磁盘写入完成时间

hi:硬中断消耗时间

si:软中断消耗时间

st:虚拟机偷取时间

2 cpu耗时百分比如何算出

2.1 sy和us


将文件从src拷贝到dst,文件会先从src读取进内核空间,然后在读取到用户空间,然后拷贝数据到用户空间的buf上,在通过用户空间,内核空间,数据才到磁盘的dst上

从上面的程序看,cpu消耗在kernel space的时候就是sy,cpu消耗在user space的时候就是us

2.2 hi和si

如果程序没有问题,就没有hi和si,但实际上有硬中断和软中断的概念;比如外设硬件故障,cpu会进行上下文切换,进行保持现场的操作,就是cpu会有段时间被硬中断占用了,这个时间就是hi;

相似的,si是软中断的cpu占用时间,软中断是由软件指令方式触发的;

软中断和硬中断可以参考:

https://blog.csdn.net/pxz_002/article/details/7327668

2.3 ni

ni是nice的意思,nice是什么呢,每个linux进程都有个优先级,优先级高的进程有优先执行的权利,这个叫做pri。进程除了优先级外,还有个优先级的修正值。即比如你原先的优先级是20,然后修正值为-2,那么你最后的进程优先级为18。这个修正值就叫做进程的nice值。

nice是一个进程的优先级修正值,为什么会占用cpu时间了?

ni是指用做nice加权的进程使用的用户态cpu时间比,我的理解就是一个进程的所谓修正值就意味着多分配一些cpu时间给这个进程的用户态,这个中间所多分配的cpu时间就是我们这里的ni。(这个理解没啥把握,如果有错误麻烦帮忙指出下)

2.4 wa

wa指的是CPU等待磁盘写入完成的时间,就是说前提是要进行IO操作,在进行IO操作的时候,CPU等待时间。比如上面那个程序,最后一步,从系统空间到dst硬盘空间的时候,如果程序是阻塞的,那么这个时候cpu就要等待数据写入磁盘才能完成写操作了。所以这个时候cpu等待的时间就是wa。

2.5 st

st的名字很生动,偷取。。。是专门对虚拟机来说的,一台物理是可以虚拟化出几台虚拟机的。在其中一台虚拟机上用top查看发现st不为0,就说明本来有这么多个cpu时间是安排给我这个虚拟机的,但是由于某种虚拟技术,把这个cpu时间分配给了其他的虚拟机了。这就叫做偷取。

2.6 id

剩下的id就是除了上面那么多cpu处理上下文以外的cpu时间片。当然在这些时间片上,cpu是空闲的。


3 steal time

如果你想要部署虚拟环境(例如:Amazon EC2), steal time就是你想要关注的性能指标之一。 如果这个指标的数值很高,那么说明机器状态非常糟糕。什么是steal time?什么会引发高steal time?多少才是警戒值(你需要做什么)?

你的虚拟机(VM)会与虚拟环境的宿主机上的多个虚拟机实例共享物理资源。其中之一共享的就是CPU时间切片。如果你的VM的物理机虚拟比是1/4, 那么它的CPU使用率不会限制于25%的CPU时间切片-它能够使用超过它设置的虚拟比。(有别于内存的使用,内存大小是严格控制的)。

cpu steal time 远高于0的原因:

这里有两种可能性:

  1. 你需要一个额定更多CPU资源的虚拟机(你的虚拟机问题)

  2. 物理机已经超卖了并且多个虚拟机之间在激烈的竞争资源(你的虚拟机不是问题)

提示:你不能通过看当前被影响的虚拟机实例的CPU性能指标来判断你所遇到的场景。(1 or 2) 当你有很多的虚拟宿主机上分别都部署了相同职责的服务程序(可能作为集群)时,就比较容易知道自己遇到的问题了。


  • 是否 %st(CPU Steal Time Percentage) 在所有机器上面都上涨了?

    这个意味着你的虚拟机在使用更多的CPU资源。你需要为你的虚拟机增加更多的CPU资源的配额。

  • 是否%st(CPU Steal Time Percentage) 只在一部分机器上面陡峭增长?

    这个意味着物理机器被超卖了。把你自己的虚拟机挪到另一个物理机器去吧。

所以,什么时候你应该担心?

一般的参考标准-如果steal time 超过了10%并且持续了20分钟,那么虚拟机就可能性能下降了

当这种情况发生:

  1. 关闭虚拟机并且挪到另一台物理机器上面

  2. 如果steal time维持在很高的数值, 那么增加CPU资源配额。

  3. 如果steal time维持在很高的数值, 联系你的虚拟机提供商。你的虚拟机提供商有可能在超卖物理机

参考文章:

https://blog.csdn.net/jessysong/article/details/73571878

https://www.cnblogs.com/yjf512/p/3383915.html

猜你喜欢

转载自blog.csdn.net/sole_cc/article/details/80644014