百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

运维天塌了,线上服务器CPU又爆满了,如何排查?

off999 2025-03-23 22:47 23 浏览 0 评论

线上服务器是业务的命脉,而CPU作为服务器的核心部件,直接决定了系统的计算能力。一旦CPU使用率飙升到100%,后果不堪设想:网站打不开、订单无法处理、数据同步中断,甚至可能引发系统宕机。CPU爆满不仅考验服务器的性能,更考验运维人员的应急能力。

那么,当CPU爆满时,我们该如何下手?是直接重启服务器,还是盲目杀掉进程?显然,这些都不是明智之举。正确的做法是循序渐进地排查,找到问题的根源,再对症下药。接下来,我将带你一步步走进排查与解决的全过程。

排查步骤:从混乱中找到线索

CPU爆满看似是个大问题,但只要有条理地排查,就能化繁为简。以下是我总结的排查步骤,每一步都配有详细的命令和操作思路。

第一步:确认CPU使用率,摸清现状

接到报警的第一件事,就是登录服务器,确认CPU到底有多“忙”。Linux系统中,最常用的工具莫过于top命令。

top 

运行top后,你会看到一个实时更新的界面,顶部显示系统资源概况。重点关注以下几行:

  • %Cpu(s):展示CPU的使用情况。us(user):用户态CPU使用率,通常是应用程序占用。sy(system):内核态CPU使用率,通常与系统调用相关。id(idle):空闲率,数值越低说明CPU越忙。

如果看到id接近0%,ussy高达90%以上,恭喜你,CPU确实爆满了。

小技巧:在top界面,按Shift + P,可以按CPU使用率对进程排序,快速找到“吃”CPU最多的家伙。

第二步:定位高CPU进程,抓住元凶

top已经帮我们锁定嫌疑犯,接下来要查清它的身份。记下CPU占用最高的进程ID(PID),比如某个进程PID是784,然后用ps命令挖出更多信息:

ps -ef | grep 784 

输出会显示进程的详细信息,包括启动命令、用户、运行时间等。

进阶操作:想知道进程用了多少CPU时间?试试这个:

ps -p grep -o %cpu,etime 
  • %cpu:CPU使用百分比。
  • etime:进程运行的总时间。

如果进程运行时间很短但CPU占用极高,可能是突发问题;如果运行时间很长,可能是慢性消耗。

第三步:分析进程行为,深入挖掘

找到高CPU进程后,别急着杀掉它,先搞清楚它在干什么。

如果是Java进程

Java应用是CPU爆满的常客,尤其是线程池配置不当或死循环时。可以用jstack查看线程堆栈:

jstack 784 > jstack.log 

打开jstack.log,搜索关键字RUNNABLE,找到活跃线程的堆栈。如果看到某个线程反复执行某段代码(比如某个while循环),问题就暴露了。

辅助命令:先用jps找到Java进程的PID:

jps -l 

如果是其他进程

对于非Java进程,strace是排查利器,可以跟踪系统调用:

strace -p 3049767 -o strace.log 

strace.log会记录进程的系统调用,比如read()write()fork()。如果看到某个调用频繁重复,可能是代码逻辑问题或IO瓶颈。

注意strace会影响性能,线上环境谨慎使用,抓几秒数据即可。

第四步:检查系统负载,了解全局

CPU高不一定是单个进程的问题,也可能是系统整体超载。用uptime快速查看负载:

uptime 

输出示例:

load average后面的三个数字分别是1分钟、5分钟、15分钟的系统负载。如果负载远高于CPU核心数(比如4核机器负载超过4),说明任务堆积严重。

再用vmstat看详细资源情况:

vmstat 1 

输出示例:

  • r:运行队列中的进程数,值过高说明CPU忙不过来。
  • ussyid:与top类似,反映CPU使用分布。

第五步:监控网络流量,排除外部干扰

有时CPU爆满不是内部问题,而是外部流量冲击导致。用iftop查看网络流量:

iftop -i enp3s0 

iftop会显示每个连接的带宽占用。如果某个IP流量异常高,可能是DDoS攻击或爬虫。

没装iftop?试试nethogs

nethogs enp3s0 

它按进程显示网络使用情况,帮你找到流量大户。

第六步:翻查日志,寻找蛛丝马迹

日志是排查的宝藏。系统日志用这个命令:

tail -f /var/log/syslog 

如果是Ubuntu,可能看/var/log/syslog;CentOS则是/var/log/messages。找找有没有错误提示,比如Out of memory或硬件故障。

应用日志路径因项目而异,比如Nginx可能是/var/log/nginx/error.log,逐个排查吧。

第七步:分析CPU使用模式,分清主次

CPU爆满是用户态还是内核态问题?用mpstat一探究竟:

mpstat -P ALL 1 

输出示例:

  • %usr高:用户态问题,多半是应用代码。
  • %sys高:内核态问题,可能涉及系统调用或驱动。

解决方法:对症下药,恢复稳定

排查出原因后,接下来是解决问题。以下是常见场景的应对措施。

场景1:应用代码问题

如果jstack发现死循环,或perf定位到低效算法,赶紧通知开发优化代码。临时缓解可以用kill -9 PID杀进程,但要确保业务有重启机制。

性能分析

perf record -p 12345 perf report 

场景2:系统配置不当

并发连接过多?调整TCP参数:

sysctl -w net.core.somaxconn=1024 

文件描述符不够?修改限制:

ulimit -n 65535 

场景3:硬件瓶颈

CPU不够用?只能升级硬件或加机器了。临时可以用nice降低进程优先级:

renice 10 -p 12345 

场景4:负载过高

部署Nginx或HAProxy做负载均衡,分担压力。配置简单,这里不展开。

场景5:恶意进程

发现病毒?用kill干掉,再用clamav扫一遍:

clamscan -r / 

预防措施:防患于未然

解决问题后,别忘了亡羊补牢:

  1. 监控:用Zabbix或Prometheus实时监控,设置CPU告警。
  2. 测试:上线前用ab压测:
ab -n 10000 -c 100 http://baidu.com/ 
  1. 审查:定期查代码,优化瓶颈。
  2. 规划:根据业务量预留20%-30%资源冗余。
  3. 安全:装防火墙,限制异常流量。

运维无小事,稳定是王道

CPU爆满是运维路上的拦路虎,但只要掌握排查技巧,就能化险为夷。从topjstack,从日志到网络,每一步都可能藏着关键线索。希望这篇文章能成为你的实战指南,下次“天塌”时,愿你从容不迫,笑对危机!

相关推荐

每天一个 Python 库:datetime 模块全攻略,时间操作太丝滑!

在日常开发中,时间处理是绕不开的一块,比如:生成时间戳比较两个时间差转换为可读格式接口传参/前端展示/日志记录今天我们就用一个案例+代码+思维导图,带你完全搞定datetime模块的用法!...

字节跳动!2023全套Python入门笔记合集

学完python出来,已经工作3年啦,最近有很多小伙伴问我,学习python有什么用其实能做的有很多可以提高工作效率增强逻辑思维还能做爬虫网站数据分析等等!!最近也是整理了很多适合零基...

为什么你觉得Matplotlib用起来困难?因为你还没看过这个思维导图

前言Matplotlib是一个流行的Python库,可以很容易地用于创建数据可视化。然而,设置数据、参数、图形和绘图在每次执行新项目时都可能变得非常混乱和繁琐。而且由于应用不同,我们不知道选择哪一个图...

Python新手必看!30分钟搞懂break/continue(附5个实战案例)

一、跳转语句的使命当程序需要提前结束循环或跳过特定迭代时,break和continue就是你的代码急刹按钮和跳步指令。就像在迷宫探险中:break=发现出口立即离开continue=跳过陷阱继续前进二...

刘心向学(24)Python中的数据类(python中5种简单的数据类型)

分享兴趣,传播快乐,增长见闻,留下美好!亲爱的您,这里是LearningYard新学苑。今天小编为大家带来文章“刘心向学(24)Python中的数据类”欢迎您的访问。Shareinterest,...

刘心向学(25)Python中的虚拟环境(python虚拟环境安装和配置)

分享兴趣,传播快乐,增长见闻,留下美好!亲爱的您,这里是LearningYard新学苑。今天小编为大家带来文章“刘心向学(25)Python中的虚拟环境”欢迎您的访问。Shareinte...

栋察宇宙(八):Python 中的 wordcloud 库学习介绍

分享乐趣,传播快乐,增长见识,留下美好。亲爱的您,这里是LearingYard学苑!今天小编为大家带来“Python中的wordcloud库学习介绍”欢迎您的访问!Sharethefun,...

AI在用|ChatGPT、Claude 3助攻,1分钟GET高颜值思维导图

机器之能报道编辑:Cardinal以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人...

使用DeepSeek + Python开发AI思维导图应用,非常强!

最近基于Deepseek+PythonWeb技术开发了一个AI对话自动生成思维导图的应用,用来展示下如何基于低门槛的Python相关技术栈,高效结合deepseek实现从应用场景到实际应用的快速落地...

10幅思维导图告诉你 - Python 核心知识体系

首先,按顺序依次展示了以下内容的一系列思维导图:基础知识,数据类型(数字,字符串,列表,元组,字典,集合),条件&循环,文件对象,错误&异常,函数,模块,面向对象编程;接着,结合这些思维导图主要参考的...

Python基础核心思维导图,让你轻松入门

Python基础核心思维导图【高清图文末获取】学习路线图就给大家看到这里了,需要的小伙伴下方获取获取方式看下方图片...

Python基础核心思维导图,学会事半功倍

Python基础核心思维导图【高清图文末获取】学习路线图就给大家看到这里了,需要的小伙伴下方获取获取方式看下方图片...

硬核!288页Python核心知识笔记(附思维导图,建议收藏)

今天就给大家分享一份288页Python核心知识笔记,相较于部分朋友乱糟糟的笔记,这份笔记更够系统地总结相关知识,巩固Python知识体系。文末获取完整版PDF该笔记学习思维导图:目录内容展示【领取方...

Python学习知识思维导图(高效学习)

Python学习知识思维导图python基础知识python数据类型条件循环列表元组字典集合字符串序列函数面向对象编程模块错误异常文件对象#python##python自学##编程#...

别找了!288页Python核心知识笔记(附思维导图,建议收藏)

今天就给大家分享一份288页Python核心知识笔记,相较于部分朋友乱糟糟的笔记,这份笔记更够系统地总结相关知识,巩固Python知识体系。文末获取完整版PDF该笔记学习思维导图:目录内容展示【领取方...

取消回复欢迎 发表评论: