一臺機器,CPU100%,如何找到相關服務,如何定位問題代碼,今天簡單分享下思路。
假設,服務器上部署了若干Java站點服務,以及若干Java微服務,突然收到運維的CPU異常告警。如何定位是哪個服務進程導致CPU過載,哪個線程導致CPU過載,哪段代碼導致CPU過載?
簡要步驟如下:
(1)找到最耗CPU的進程;
(2)找到最耗CPU的線程;
(3)查看堆棧,定位線程在干嘛,定位對應代碼;
步驟一、找到最耗CPU的進程
工具:top
方法:
執行top -c ,顯示進程運行信息列表鍵入P (大寫p),進程按照CPU使用率排序圖示:
如上圖,最耗CPU的進程PID為10765。
步驟二:找到最耗CPU的線程
工具:top
方法:
top -Hp 10765 ,顯示一個進程的線程運行信息列表鍵入P (大寫p),線程按照CPU使用率排序圖示:
如上圖,進程10765內,最耗CPU的線程PID為10804。
步驟三:查看堆棧,定位線程在干嘛,定位對應代碼首先,將線程PID轉化為16進制。
工具:printf
方法:printf "%x " 10804
圖示:
如上圖,10804對應的16進制是0x2a34,當然,這一步可以用計算器。
之所以要轉化為16進制,是因為堆棧里,線程id是用16進制表示的。
接著,查看堆棧,找到線程在干嘛。
工具:jstack
方法:jstack 10765 | grep '0x2a34' -C5 --color
打印進程堆棧通過線程id,過濾得到線程堆棧圖示:
如上圖,找到了耗CPU高的線程對應的線程名稱“AsyncLogger-1”,以及看到了該線程正在執行代碼的堆棧。最后,根據堆棧里的信息,找到對應的代碼,搞定!
希望對經常進行線上CPU問題排查的同學有幫助,如果有更好的實踐,也歡迎分享。
作者:58沈劍
來源:微信公眾號:架構師之路
出處:https://mp.weixin.qq.com/s/kjHVxBZzvVqtPFl4CDndfA
本文發布于:2023-02-28 20:02:00,感謝您對本站的認可!
本文鏈接:http://www.newhan.cn/zhishi/a/167765134674724.html
版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。
本文word下載地址:cpu100(cpu100度正常嗎).doc
本文 PDF 下載地址:cpu100(cpu100度正常嗎).pdf
| 留言與評論(共有 0 條評論) |