nvidia-smi 的坑。

运维监控 GPU 的alive的存活状态

发现了一下一些坑

1 供电不足导致 gpu掉线。

我们用的是 1080, 结果功率低于500W, 不足以支撑 gpu,风扇,等配套硬件的功率, 所以导致gpu掉线。
最后,增加供电功率。

2 nvidia-smi 检查存活状态及温度时, 命令延迟

nvidia-smi

这条命令就一直卡在那, 最后借用 timeout 这个命令, 超时自动kill ,

猜你喜欢

转载自blog.csdn.net/weixin_41088891/article/details/88579203