Linux系统内存问题排查的“套路”你掌握了吗？_Linux

Linux系统内存问题排查的“套路”你掌握了吗？

2024-01-05 17:04未知服务器之家 Linux

最近一段时间有点忙，有段时间没更新文章了，今天我们一起完成关于内存模块的最后一块拼图，如何高效的找到Linux系统内存的问题。在前面我们讲了内存的基本概念、内存映射、分配和回收、Page Cache、内存泄露相关的案例分析

Linux系统内存问题排查的“套路”你掌握了吗？

最近一段时间有点忙，有段时间没更新文章了，今天我们一起完成关于内存模块的最后一块拼图，如何高效的找到Linux系统内存的问题。在前面我们讲了内存的基本概念、内存映射、分配和回收、Page Cache、内存泄露相关的案例分析。感兴趣的朋友们，可以回过头翻阅查看。

内存性能指标

为了分析内存的性能瓶颈，首先你要知道，怎样衡量内存的性能，也就是性能指标问题。这里又可以分别从整体内存使用情况和进程内存使用情况去观察内存指标。

Linux系统内存问题排查的“套路”你掌握了吗？

Linux系统free命令输出

Linux系统内存问题排查的“套路”你掌握了吗？

VIRT、VSZ：虚拟内存，包括了进程代码段、数据段、共享内存、已经申请的堆内存和已经换出的内存等。这里要注意，已经申请的内存，即使还没有分配物理内存，也算作虚拟内存。
RES、RSS：常驻内存是进程实际使用的物理内存，不过，它不包括Swap和共享内存。
SHR：共享内存，既包括与其他进程共同使用的真实的共享内存，还包括了加载的动态链接库以及程序的代码段等
Swap：是指通过 Swap 换出到磁盘的内存。
缺页异常：
Majflt：主缺页异常。需要磁盘I/O 介入（比如 Swap）来分配内存。主缺页异常升高，那么内存访问也会慢很多。
Minflt：次缺页异常。直接从物理内存中分配内存。

这些内存的性能指标都需要我们熟记并且会用。我把它们汇总成了一个思维导图供大家参考。

Linux系统内存问题排查的“套路”你掌握了吗？

我们知道了内存的性能指标后，我们还需要学会根据性能指标找工具（性能观察命令），下面表格整理了内存性能指标和工具的关系。

Linux系统内存问题排查的“套路”你掌握了吗？

快速定位内存问题，可以先从整体内存使用情况入手，在观察进程的内容使用情况，找出可疑进程后，在进一步分析进程的内存地址空间分布等等；在使用性能工具使用优先选覆盖面大的工具，这样可以同时观察到多个指标。具体的步骤可以分成以下几步：

禁用Swap：如果必须开启 Swap，降低 swappiness 的值，减少内存回收时 Swap 的使用倾向。
减少内存的动态分配。比如，可以使用内存池、大页（HugePage）等。
尽量使用缓存和缓冲区来访问数据。比如，可以使用堆栈明确声明内存空间，来存储需要缓存的数据；或者用 Redis 这类的外部缓存组件，优化数据的访问。
使用 cgroups 等方式限制进程的内存使用情况。这样，可以确保系统内存不会被异常进程耗尽。通过 /proc/pid/oom_adj ，调整核心应用的 oom_score。这样，可以保证即使内存紧张，核心应用也不会被 OOM 杀死。
根据需要优化Linux内核中关于内存相关参数，一些核心参数如下。
vm.swappiness。
vm.overcommit_memory。
vm.dirty_ratio、vm.dirty_background_ratio。
vm.min_free_kbytes。
vm.drop_caches。

Linux系统内存问题排查的“套路”你掌握了吗？