IT培训 / 新闻资讯 / 系统/运维教程 / Linux服务器负载问题排查方法

Linux服务器负载问题排查方法

作者：课课家教育来源： http://www.kokojia.com点击数：1719发布时间： 2018-11-25 09:07:22

标签： Linux 服务器操作系统服务器负载

　　Linux服务器负载问题排查

实践是检验真理的唯一标准，而在实践过程中我们很容易遇到一些难题，所以今天课课家小编就此问题，与大家分享一下，Linux服务器负载问题的排查方法！

　　一、CPU和内存问题

　　top命令

　　vmstat命令

　　free命令

　　二、磁盘问题

　　iostat命令

　　iotop命令

　　du和df命令

　　三、网络问题

　　nload命令

　　nethogs

　　tcpdump

　　最近在维护公司线上的服务器，排查了一些问题，所以做一个总结。有一段时间，线上环境变得很卡，客户端请求很多都报超时，因为线上没有良好的apm监控，所以只能通过流量高峰期和日志去排查问题。通过排查，发现数据库的慢查询日志在比之间的暴涨了十倍，然后发现，memcache服务器(8核)负载很高，cpu一直在50%的左右，原因就是memcache服务器内存用完，导致内存的淘汰十分频繁，这样就导致很多请求落到数据库。下面说下主要的排查思路和用到的工具

　　服务的性能主要看的就是四大件：cpu、内存、磁盘、网络。排查过程的重要程度也是有重到轻。

　　一、CPU和内存问题

　　我一般使用的就是最常见的top命令和htop命令，因为内存和cpu这个命令都有展示了所以就一起说了，而且内存也比较直观。htop比top更简单方便，现在也在慢慢开始用htop，因为在启动一些应用的时候很多时候命令行非常长，如果实在top命令中因为字符限制，这个命令就不全，不能找到启动这个应用的命令行，就无法定位到这个进程是什么应用，htop可以左右移动，可以完整的看到，我当初也是因为这个功能才用的它。因为两个命令差不多，所以只说下top。

　　top命令

　　常用参数： -H 打印具体的线程， -p 打印某个进程进入后按数字1 可以切换cpu的图形看有几个核

　　下面是我的测试环境shell:

　　top - 14:28:49 up 7 min, 3 users, load average: 0.08, 0.26, 0.19

　　Tasks: 221 total, 2 running, 219 sleeping, 0 stopped, 0 zombie

　　%Cpu(s): 5.1 us, 3.4 sy, 0.0 ni, 91.5 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st

　　KiB Mem : 985856 total, 81736 free, 646360 used, 257760 buff/cache

　　KiB Swap: 2094076 total, 1915196 free, 178880 used. 141592 avail Mem

　　我一般重点关注的指标有：

　　%Cpu(s): 5.1 us, 3.4 sy, 0.0 wa

　　这里可以非常直观的看到当前cpu的负载情况，us用户cpu占用时间，sy是系统调用cpu占用时间，wa是cpu等待io的时间，前面两个比较直观，但是第三个其实也很重要，如果wa很高，那么你就该重点关注下磁盘的负载了，尤其是像MySQL这种服务器。load average: 0.08, 0.26, 0.19

　　cpu任务队列的负载，这个队列包括正在运行的任务和等待运行的任务，三个数字分别是1分钟、5分钟和15分钟的平均值。这个和cpu占用率一般是正相关的，反应的是用户代码，如果超过了内核数，表示系统已经过载。也就是说如果你是8核，那么这个数字小于等于8的负载都是没问题的，我看网上的建议一般这个值不要超过ncpu*2-2为好。KiB Mem : 985856 total, 81736 free, 646360 used, 257760 buff/cache

　　内存占用情况，total总内存，free空余内存， used已经分配内存，buff/cache块设备和缓冲区占用的内存，因为Linux的内存分配，如果有剩余内存，他就会将内存用于cache，这样可以较少磁盘的读写提高效率，如果有应用申请内存，buff/cache这部分内存也是可用的，所以正真的剩余内存应该是free+buff/cacheswap

　　线上服务器一般都是禁用状态，所以不用看这项。PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND

　　这一栏主要是看进程的详情，重点是%CPU %MEM，之前看的是整个服务器的负载，这里是每个进程的负载。vmstat命令

　　这个命令和top有很多重叠，其实很多命令之间都有重叠，这个命令我主要会看下system这一栏，in线程中断，cs线程上下文切换是否有异常，还有io这一栏。对top是一个非常好的补充。

　　root@ubuntu:~# vmstat 2 10

　　procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----

　　r b swpd free buff cache si so bi bo in cs us sy id wa st

　　1 0 452352 195164 25648 365140 23 199 717 292 166 626 4 3 93 1 0

　　0 0 452352 195156 25648 365140 0 0 0 0 97 201 0 0 100 0 0

　　1 0 452352 195156 25648 365140 0 0 0 0 96 197 1 1 99 0 0

　　free命令

　　查看内存使用状态，因为top命令中已经有了，所以很少使用。

　　典型问题

　　java应用出问题一般都是内存和cpu的问题，像cpu飙高，内存不够等是通过这些来发现。一般cpu问题，通过top定位到进程号，然后输入H切换到线程，记住具体的进程号，使用jstack打印java进程的线程栈，jstack输出为十六进制，需要将top的转换成十六进制的然后入找线程经常卡在哪个方法。如果是内存问题，则通过gc日志和jmap输出dump文件。

　　二、磁盘问题

　　磁盘问题在mysql服务器中非常常见，很多时候mysql服务器的CPU不高但是却出现慢查询日志飙升，就是因为磁盘出现了瓶颈。还有mysql的备份策略，如果没有监控磁盘空间，可能出现磁盘满了服务不可用的现象。

　　iostat命令

　　常用参数： -k 用kb为单位 -d 监控磁盘 -x显示详情 num count 每个几秒刷新显示次数

　　这个是我查看磁盘负载的主要工具，也可以显示cpu的负载，不过我一般用iostat -kdx 2 10,下面是我测试环境执行情况：

　　root@ubuntu:~# iostat -kdx 2 10

　　Linux 4.13.0-38-generic (ubuntu) 11/18/2018 _x86_64_ (1 CPU)

　　Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util

　　sda 24.75 196.05 121.66 9.75 2481.33 961.29 52.40 0.44 3.33 1.12 30.95 0.51 6.71

　　scd0 0.00 0.00 0.02 0.00 0.08 0.00 7.00 0.00 0.25 0.25 0.00 0.25 0.00

　　我一般重点关注的指标有：

　　rkB/s和wkB/s

　　分别对应读写速度avgqu-sz

　　读写队列的平均请求长度，可以类比top命令的load averageawait r_await w_await

　　io请求的平均时间(毫秒)，分别是读写，读和写三个平均值。这个时间都包括在队列中等待的时间和实际处理读写请求的时间，还有svctm这个参数，他说的是实际处理读写请求的时间，照理来讲w_await肯定是大于svctm的，但是我在线上看到有w_await小于svctm的情况，不知道是什么原因。我看iostat的man手动中说svctm已经废弃，所以一般我看的是这三个。%util

　　这个参数直观的看磁盘的负载情况，我首先看的就是这个参数。和top的wa命令有关联。iotop命令

　　这个命令非常简单，主要用于直观的看那些进程占用io较高，是否有异常的进程。

　　Total DISK READ : 0.00 B/s | Total DISK WRITE : 0.00 B/s

　　Actual DISK READ: 0.00 B/s | Actual DISK WRITE: 0.00 B/s

　　TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND

　　1 be/4 root 0.00 B/s 0.00 B/s 0.00 % 0.00 % init auto noprompt

　　2 be/4 root 0.00 B/s 0.00 B/s 0.00 % 0.00 % [kthreadd]

　　4 be/0 root 0.00 B/s 0.00 B/s 0.00 % 0.00 % [kworker/0:0H]

　　6 be/0 root 0.00 B/s 0.00 B/s 0.00 % 0.00 % [mm_percpu_wq]

　　7 be/4 root 0.00 B/s 0.00 B/s 0.00 % 0.00 % [ksoftirqd/0]

　　8 be/4 root 0.00 B/s 0.00 B/s 0.00 % 0.00 % [rcu_sched]

　　9 be/4 root 0.00 B/s 0.00 B/s 0.00 % 0.00 % [rcu_bh]

　　du和df命令

　　主要是通过这两个命令看系统的磁盘占用率和文件夹的大小，有时候日志文件不清理会导致磁盘用满等情况。

　　用法： df -h 查看磁盘占用情况df

　　用法： du -sh 查看当前目录容量典型问题

　　磁盘问题我在mysql服务器上处理过几次，mysql负载大时，很多时候磁盘先到了瓶颈，大量个请求超时，cpu负载却不高，如果mysql服务器异常，建议重点看下磁盘。

　　三、网络问题

　　在线上服务器，大部分服务器都是只能内网访问，放在公网的服务器也就那几台nginx和ftp的，另外公网的那些服务器都有流量监控，所以网络问题一般并不大，不再详细说明，推荐一些工具，如果有需要可以对着查下。

　　nload命令

　　用于监控整体的带宽

　　nethogs

　　用于监控进程的带宽使用情况

　　tcpdump

　　这个工具挺有意思的，可以用来做抓包，如果对网络协议有兴趣的话也可以玩玩，它可以完整的监控到三次握手的帧，有利于更好的理解tcp协议，这个命令当时玩过一段时间，功能十分强大，主要用于排查疑难杂症，需要对网络协议较深的理解。

小编:通过以上学习对你是否有所帮助呢？是不是意犹未尽？如果是的话，那就点击课课家提供的相关链接获取更多资料吧！

踩(0)

分享到：

上一篇：Linux如何使用数据库？

下一篇：部署vmware基础教程解析（一）

关注微信公众号，可下载APP应用。

Linux服务器负载问题排查方法

思科认证考试CCIE网工企业基础设施EI路由交换理论lab在线培训

Linux红帽认证工程师RHCE8考试高级系统运维实战在线培训

Linux高级运维系列从入门到精通视频教程

售前工程师系列【解决方案撰写】视频教程

企业级网络安全与等保2.0【行业剖析+产品方案+项目实战】视频教程

2022下半年信息系统项目管理师上午综合知识真题及答案解析

2022下半年信息系统项目管理师下午案例分析真题及答案解析

2022下半年系统集成项目管理工程师上午真题及答案解析

2022下半年系统集成项目管理工程师下午真题及答案解析

2022下半年网络工程师上午真题及答案解析

粤ICP备13047178号粤公网安备44010602001432号

广州挪贤计算机科技有限公司版权所有

Copyright @ 2013-2023 KokoJia.com Inc. All Rights Reserved.

客服热线：

9:00~19:00

关注微信公众号，可下载APP应用。

Linux服务器负载问题排查方法

思科认证考试CCIE网工企业基础设施EI路由交换理论lab在线培训

Linux红帽认证工程师RHCE8考试高级系统运维实战在线培训

Linux高级运维系列从入门到精通视频教程

售前工程师系列【解决方案撰写】视频教程

企业级网络安全与等保2.0【行业剖析+产品方案+项目实战】视频教程

2022下半年信息系统项目管理师上午综合知识真题及答案解析

2022下半年信息系统项目管理师下午案例分析真题及答案解析

2022下半年系统集成项目管理工程师上午真题及答案解析

2022下半年系统集成项目管理工程师下午真题及答案解析

2022下半年网络工程师上午真题及答案解析

粤ICP备13047178号 粤公网安备44010602001432号

广州挪贤计算机科技有限公司 版权所有

Copyright @ 2013-2023 KokoJia.com Inc. All Rights Reserved.

客服热线：

9:00~19:00

粤ICP备13047178号粤公网安备44010602001432号

广州挪贤计算机科技有限公司版权所有