记一次线上k8s宕机 - 代码天地

记一次线上k8s宕机

其他 2020-02-15 11:31:08 阅读次数: 0

之前可使用kubectl top nodes观察发布时的cpu使用情况

可以登陆node节点主机使用 top H -n 1 查看线程情况

同时并发发布多个项目，导致cpu满了之后，挂掉

导致该node节点的pod全部迁移至其他node节点，而其他node节点的cpu及线程最大限制都无法负载pod，导致node一个个宕机，最终整个集群宕机。

经过查看发现是由于pid耗尽，致使docker崩溃，无法驱逐pod，最终触发系统OOM。

触发原因: 集群初始node节点较少，启动pod过多，pod request设置的较小，导致大量pod调度到节点上，打满了节点pid，docker崩溃，kubelet无法工作，节点也无法登陆，触发系统OOM后，有多余的pid被释放，此时节点可以登陆，但是docker已经挂掉，问题节点无法恢复正常工作，此时新加节点，会导致原节点上的pod集体迁移到新节点，导致新节点也因同样原因挂掉，造成集群雪崩效应，需要手动重启组件或节点才可恢复。

原因1：节点pid限制为32768

原因2：用户container启动了过多的线程

原因3：kubelet未做pid资源限制

临时解决方案：

1. 调大pod requests，限制每个节点上的pod总量

2. 减少容器的线程启动量，设置一个最大值

3. 部署服务时尽量提前准备好足够的节点，以使pod能平均调度，减轻各node的pid压力

短期解决方案：

1. k8s调大pid限制至65535

2. 改善其他内核限制

3. 去除历史遗留日志

长远解决方案：

1. 提供K8S 1.14版本后彻底解决

K8S 1.13版本kubelet有--pod-max-pids feature，是alpha参数，不准备使用

K8S 1.14版本--pod-max-pids是beta参数，将启用限制pod可启的线程数，system-reserved 和kube-reserved 这2个参数也将支持节点pid资源预留，也将启用

https://github.com/kubernetes/kubernetes/pull/73651/commits/2597a1d97ef4d8f54b1ca661453e32794b756909

发布了30 篇原创文章 · 获赞 2 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_42150559/article/details/93979750

记一次线上k8s宕机

记一次K8s Patch

记一次k8s中Springboot项目运行时自动重启

[k8s]记一次持续集成各种坑

k8s之记一次内部DNS无法解析的故障过程

记一次失败的K8S安装部署

记一次EFK采集不到k8s日志数据的解决过程

记一次k8s集群中etcd集群恢复处理

记一次k8s集群集群恢复处理案例

记一次k8s pod频繁重启的优化之旅

记一次k8s集群节点镜像存储容量报警问题

记一次k8s健康检查导致的问题

记一次通过K8S ingress访问业务服务出现404问题

记一次从二进制部署的 k8s 集群到 kubeadm 部署的 k8s 迁移测试

记一次生产环境问题解决案例(k8s环境)

Rancher入门到精通- 记一次服务器断电 rancher server及k8s集群恢复问题排查过程 crypto/bcrypt: hashedPassword is not the hash

记一次mysql宕机

【K8s】第一次部署项目

一次关于k8s的调试问题

记录一次K8S的容器压测监控

【案例分享】一次客户需求引发的K8S网络探究

【云原生】k8s Job 执行一次性/批处理任务

记录一次线上频繁宕机的案例

k8s环境下由predis初始化连接缓慢引起的一次问题排查

Centos7搭建k8s环境教程，一次性成功，收藏了

k8s学习-一次ubernetes ApiServer 不能访问到 metrics-server问题

记一次线上hystrix的事故

记一次线上问题排查

记一次线上outofMemory

记一次线上问题及反思

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)