分类导航

PHP教程|ASP.NET教程|Java教程|ASP教程|编程技术|正则表达式|C/C++|IOS|C#|Swift|Android|VB|R语言|JavaScript|易语言|vb.net|

服务器之家 - 编程语言 - 编程技术 - Kubernetes组件问题排查的一些方法

Kubernetes组件问题排查的一些方法

2021-04-19 23:10运维开发故事乔克编程技术

Kubernetes的基础组件就像一栋房子的地基，它们的重要性不言而喻。作为Kubernetes集群的维护者，经常会遇到组件的问题，那平时是怎么去定位解决的呢?

Kubernetes组件问题排查的一些方法

Kubernetes的基础组件就像一栋房子的地基，它们的重要性不言而喻。作为Kubernetes集群的维护者，经常会遇到组件的问题，那平时是怎么去定位解决的呢?

这里简要分析一下我的排查思路。

通过集群的状态，找到故障的节点或者组件
分析组件的日志
使用pprof分析组件的具体性能

确定范围

Kubernetes的基础组件不多，而且部署也非常简单，所以在定义范围的时候还是很容易的，比如我们在使用kubectl get nodes的时候，如果某个节点的状态是NotReady，我们脑海中是不是会出现两种可能?

(1)节点的kubelet组件有问题

(2)节点的网络组件有问题

这样一来，大体方向已经确定了，然后就是做排除法了。

这里为何说是排除法?因为在解决问题的途中，我们通常会采用先假设再验证的方式进行，先把所以可能的因素列出来，然后一个一个的去验证去排除，直到解决问题。

分析日志

日志分析是故障排查最直接的方式，大部分问题都能从日志里体现出来，Kubernetes的组件日志查看方式通常有两种：

通过systemd启动的服务，使用journalctl -l -u xxxx
使用静态pod启动的服务，使用kubectl logs -n kube-system $PODNAME --tail 100

当然，很多时候不仅仅是分析它本身的问题，我们还会关注周边的问题，比如基础设施的CPU、内存、IO等情况，这样进行综合考虑来找出问题。

性能分析

为什么把性能分析放到最后呢?

对于大部分人来说，并不擅长，也不喜欢分析组件的性能。第一是时间比较长，第二是要对各个性能指标有一定的了解，第三是学习成本比较大。

众所周知，Kubernetes的版本迭代比较快，基本一年会发2-3个版本，如此快的迭代速度，不排除一些版本中存在BUG，存在一些性能问题。所以在实在没招的情况下，可以尝试对其组件的性能进行分析。

Kubernetes是使用Golang开发，而Golang的pprof是性能分析的利器，提供交互式界面和UI图形化，比较直观，可以很方便的找出问题。除此之外，还可以使用go-torch将profile数据生成火焰图，这样会更直观。

Kubernetes的组件都可以使用pprof进行性能分析，界面在host:port/debug/pprof/。

pprof的常用方式

使用交互式命令

查看堆栈调用信息

go tool pprof http://localhost:8001/debug/pprof/heap

查看 30 秒内的 CPU 信息

go tool pprof http://localhost:8001/debug/pprof/profile?seconds=30

查看 goroutine 阻塞

go tool pprof http://localhost:8001/debug/pprof/block

收集 5 秒内的执行路径

go tool pprof http://localhost:8001/debug/pprof/trace?seconds=5

互斥持有者的堆栈跟踪

go tool pprof http://localhost:8001/debug/pprof/mutex

通过UI界面

UI分析工具使用起来相对比较麻烦，我们需要先导出文件，然后再使用go tool工具起服务进行分析。

比如我们导出kube-scheduler的堆栈信息。

curl -sK -v http://localhost:10251/debug/pprof/heap > heap.out

然后使用go tool工具起一个服务，如下：

go tool pprof -http=0.0.0.0:8989 heap.out

然后就可以在浏览器上看到具体的堆栈信息图了。

Kubernetes组件问题排查的一些方法

注意，这里需要在服务端安装graphviz组件，各种操作系统的安装方式见[3]。

UI界面主要的菜单以及其功能简要介绍如下：

VIEW：查看模式
- Top：从高到底排序查看
- Graph：默认的模式，以关系图形式查看
- Flame Graph：以火焰图形式查看
- Peek：排序查看，展示的信息更多
- Source：排序查看，带源码标注
- Disassemble：现实所有总量
SAMPLE：为VIEW提供查看模式
- alloc_objects：已分配的对象总量(不管是否已释放
- alloc_space：已分配的内存总量(不管是否已释放)
- inuse_objects：已分配但尚未释放的对象数量
- inuse_sapce：已分配但尚未释放的内存数量
- REFINE：提供筛选能力

上面简单介绍了pprof的基本使用方法，下面就Kubernetes的各个组件进行简单的分析，这里只就CPU信息进行获取以及展示。

注意：由于版本原因，有的版本默认开启了pprof，有的版本则没有，如果没有开启的，需要自行去开启，参数基本都是profiling: true，具体的信息可以到官网进行查看[4]。

分析kube-apiserver

(1)使用kubectl proxy启动一个代理

kubectl proxy

(2)另起一个终端，获取CPU信息

curl -sK -v http://localhost:8001/debug/pprof/profile >apiserver-cpu.out

(3)使用go tool工具启动服务

go tool pprof -http=0.0.0.0:8989 apiserver-cpu.out

(4)在浏览器上进行查看

Kubernetes组件问题排查的一些方法

分析kube-scheduler

(1)获取CPU的信息

curl -sK -v http://localhost:10251/debug/pprof/profile >scheduler-cpu.out

(2)使用go tool工具启动服务

go tool pprof -http=0.0.0.0:8989 scheduler-cpu.out

(3)在浏览器进行查看

Kubernetes组件问题排查的一些方法

分析kube-controller-manager

(1)获取CPU的信息

curl -sK -v http://localhost:10252/debug/pprof/profile >controller-cpu.out

(2)使用go tool工具启动服务

go tool pprof -http=0.0.0.0:8989 controller-cpu.out

(3)在浏览器进行查看

Kubernetes组件问题排查的一些方法

分析kubelet

(1)使用kubectl proxy启动一个代理

kubectl proxy

(2)另起一个终端，获取CPU信息

curl -sK -v http://127.0.0.1:8001/api/v1/nodes/k8s-node04-138/proxy/debug/pprof/profile >kubelet-cpu.out

(3)使用go tool工具启动服务

go tool pprof -http=0.0.0.0:8989 kubelet-cpu.out

(4)在浏览器上进行查看

Kubernetes组件问题排查的一些方法

能够抓到具体的性能数据才是第一步，后续的具体分析才会帮助我们找到问题。

文档

[1] https://github.com/google/pprof

[2] https://github.com/uber-archive/go-torch

[3] http://www.graphviz.org/download/#linux

[4] https://kubernetes.io/zh/docs/reference/command-line-tools-reference/kube-apiserver/

原文地址：https://mp.weixin.qq.com/s/Qb3ldN7h0wkOaAzMsf_ezg

延伸 · 阅读

2022-03-08React 非父子组件传参的实例代码
2022-03-07如何调试Kubernetes集群中的网络延迟问题
2022-03-07易语言给组件上加载图片方法步骤
2022-03-06易语言农历月历组件使用方法
2022-03-06详解易语言透明标签组件
2022-03-03使用 Cilium 增强 Kubernetes 网络安全

精彩推荐

编程技术

网络编程之get与post的区别与联系

这里来说说get与post的区别与联系，对这方面不懂的同学可以参考下。...

编程技术网5262020-07-19
编程技术

分布式计算之数据质量漫谈

数据探查不止用在数据质量领域，数仓开发、数据迁移等都需要对源数据进行数据探查。数据仓库的所有数据基础都是源数据（ODS），在开发数仓之前，需...

阿里技术5212021-12-28
编程技术

前端:使用CSS3实现酷炫的3D旋转透视

3D动画效果现在越来越普及，已经被广泛的应用到了各个平台，比如阿里云，华为云，webpack官网等。它可以更接近于真实的展示我们的产品和介绍，带来极...

趣谈前端9762021-01-05
编程技术

一道算法小题的分析过程

最近在看算法的问题比较多，希望能以一道小题，来记录算法分析的过程。题目是: Pig Latin...

前端思维框架12382021-03-02
编程技术

Rust 能够取代 C 语言吗

Rust 是 Mozilla 基金会的一个雄心勃勃的项目，号称是 C 语言和 C++ 的继任者，这篇文章主要介绍了Rust 能够取代 C 语言吗的相关知识,需要的朋友可以参考下...

TGeek5512020-06-30
编程技术

git和SVN的区别小结

这篇主要是谈谈两者的区别，svn是集中式版本控制系统，git是分布式版本控制系统，至于谁优谁劣看官自己思考吧， ...

撒野女孩4262020-07-13
编程技术

聊聊接口性能优化的11个小技巧

接口性能优化对于从事后端开发的同学来说，肯定再熟悉不过了，因为它是一个跟开发语言无关的公共问题。...

苏三说技术8302021-11-18
编程技术

火车头采集器采集多页内容的抓取教程

本文主要讲解使用火车头采集器采集多页内容的抓取教程，有需要的朋友可以参考下...

编程技术网9852020-07-19