OKHK
13:01 · May 18, 2024 · Sat
为什么我的 GPU 节点都挂了
#RePost #DevOps #Mark
https://zou.cool/2024/04/29/gpu-host-boom/
Message link
邹扒皮实验室
为什么我的 GPU 节点都挂了
背景最近在公司收到了一条告警,K8S 集群中的 GPU 的节点一台接一台的变成了 NotReady 状态了。过了半个小时,业务找我说他们的服务起不来了,同时服务的所有的实例全都异常了。因为我们线上没有关闭 controller manager Node 异常的驱逐,如果业务代码会把宿主机节点跑死,节点上的异常业务就会触发迁移,迁移完接着把下一台节点跑死。如同葫芦娃救爷爷一般,全军覆没。最后 GPU
Home
Powered by
BroadcastChannel
&
Sepia
OKHK