【故障处理】java程序cpu飙高如何排查

这里介绍如何使用原生top命令、jstack命令来做定位具体代码的位置处理

简单步骤有下面几步

  1.  执行top命令,查看CPU占用情况,找到进程的pid(12002)
  2. 使用 top -Hp <pid> 命令(为Java进程的id号)查看该Java进程内所有线程的资源占用情况
  3. 找出负载高的线程,记录tid(26917);
  4. printf “%x\n” 命令(tid指线程的id号 26917)将以上10进制的线程号转换为16进制nid(6925);
  5. jstack -l  <pid>(12002) > ./jstack_result.log  【采用jstack命令导出线程快照 ,通过使用jdk自带命令jstack获取该java进程的线程快照并输入到文件中: jstack -l  进程id号 > ./jstack_result.txt 命令(为Java进程的id号)来获取线程快照结果并输入到指定文件。】
  6. cat jstack_result.log  | grep -A 200 <nid>(6925)【根据线程号定位具体代码 cat jstack_result.log  | grep -A 100 6925】

实践

以下案例是java应用docker容器部署排查的,jar方式部署的话排查步骤是一样的

使用top命令查看

top

 查看cpu使用率比较高的线程

top -Hp 1

然后将占用最高的 pid 转换为 16 进制 printf '%x\n' pid 得到 nid:

printf '%x\n' 106

 接着直接使用 jstack 导出进程1的堆栈信息

 jstack -l 1 > ./jstack_result.log

接着直接导出的堆栈文件里面中找到相应的16进制转换后的线程堆栈信息 

cat jstack_result.log |grep  -A 200 'nid=0x6a'

可以看到我们已经找到了 nid 为 0x6a的堆栈信息,接着只要仔细分析一番即可。

当然更常见的是我们对整个 jstack 文件进行分析,通常我们会比较关注 WAITING 和 TIMED_WAITING 的部分,BLOCKED 就不用说了。

既然我们比较关注这三种状态,我们就回顾下线程的基本知识

先从网上找了一个图

从图上就可以得知

WAITING:进入等待状态,

使用方式:wait/join/park方法进入无限等待,通过notify/notifyAll/unpark唤醒;

TIMED_WAITING:与WAITING类似,

使用方式:

a. 给定等待时间的wait/join/park方法;

b. sleep方法;

BLOCKED:被动进入等待状态,使用方式进入Synchronized块;
 

顺便补下之前关于线程等待两种方式的区别

Object.wait()和Thread.sleep()

区别:

  • wait() 方法必须在同步代码块中调用,否则会抛出异常IllegalMonitorStateException; 而sleep()则不会
  • sleep不会释放锁,它也不需要占用锁,到指定时间过期会自动唤醒。wait会释放锁,但调用它的前提是当前线程占有锁(即代码要在synchronized中)等到唤醒条件满足之后,线程进入锁池,获取锁之后进入READY状态;
  • 它们都可以被interrupted方法中断。
  • wait()与wait(0)同义,无限等待,如果没设置超时时间的wait方法必须等待其他线程执行notify来唤醒;sleep(0)的意思是不等待,并且触发操作系统立刻重新进行一次CPU竞争

我们可以使用命令 cat jstack_result.log  | grep "java.lang.Thread.State" | sort -nr | uniq -c 来对 jstack 的状态有一个整体的把握,如果 WAITING 之类的特别多,那么多半是有问题啦。

cat jstack_result.log | grep "java.lang.Thread.State" | sort -nr | uniq -c

猜你喜欢

转载自blog.csdn.net/run_boy_2022/article/details/130678839