故障:收到服务器报警,内存使用率超过80%
1.查看
使用dstat和top查看内存使用最高的应用
使用dstat
查到内存占用最高的是java应用,使用2253m内存,但是这台服务器跑了好几个java,具体哪个进程使用top看下资源情况
使用top
可以看到java应用整体内存使用率超过了70%,其中pid为16494的进程 一个应用占了28.7的内存
2.定位线程问题
使用ps查看16494的线程情况
命令:ps p 16494 -l -o pcpu,pmem,pid,tid,time,tname,cmd
看到16494这个pid的应用产生了很多线程。
3.查看内存使用的堆栈
使用jstack查看
我们挑选了tid=17417的线程进行分析
在分析前需要将17417这个id转换为16进制,方便查找信息
1
2
|
[root @localhost ~]# printf "%x\n" 17417 4409 |
16进制为4409
将pid为16494的应用打印到日志中
1
|
[root @localhost ~]# jstack -l 16494 > jstack.log |
4.查看内存堆栈信息
1
|
[root @localhost ~]# vim jstack.log |
在日志信息中查找刚刚转换的4409
可以看到这个线程状态为waiting
通过查看日志发现有大量的 waiting on condition
1
|
parking to wait for < 0x0000000085dce510 > |
存在大量线程等待被唤醒,占用大量内存
5.代码优化
将相应日志发送给相应开发,优化线程
补充:分析java线程占用cpu或者内存高的代码
1、通过top查看占用cpu或者内存高的进程截图如下【备注输入大写p以cpu从大到小排序,大写m以内存大小排序】
2、通过对应的cpu找到pid也就是进程对应的pid,然后找到java进程106854这个进程id
3、通过命令top -hp pid 例如top -hp 106854
就可以列出该进程下的所有线程id
4、通过输出大写的p查看线程占用cpu最高的或者通过大写m查看内存占用最高的
然后找到109391这个线程id
5、使用命令printf “%x\n” 109391 输出对应的十六进制码,1ab4f这个码是为了过滤线程id查到对应的代码
6、使用命令jstack pid|grep 1ab4f 【备注pid是进程的id,1ab4f是这个进程下的一个线程占用最高的cpu十六进制码】
7、通过上面的输出发现kafka,所以会联想到,kafka一直监听消息,所以消耗cpu,正常现象
8、如果出现自己写的类,说明需要修改代码逻辑了
以上为个人经验,希望能给大家一个参考,也希望大家多多支持服务器之家。如有错误或未考虑完全的地方,望不吝赐教。
原文链接:https://blog.csdn.net/weixin_43931358/article/details/100516376