在最近的模型并行化工程当中,异常退出之后会出现GPU进程挂起无法关闭的情况.
报错RuntimeError: Address already in use
网上的主流的方案是kill -9 PID
等命令.
可我有16个进程,这样一个个杀有些繁琐.
查阅资料之后,在这里提供另外一种方法:
$ kill $(ps aux | grep YOUR_TRAINING_SCRIPT.py | grep -v grep | awk '{print $2}')
上述方法来来自于
https://leimao.github.io/blog