pytorch 进行分布式调试debug torch.distributed.launch 三种方式

文章目录

- - 一. pytorch 分布式调试debug torch.distributed.launch 三种方式

一. pytorch 分布式调试debug torch.distributed.launch 三种方式

1. 方式1：ipdb调试（建议）

参考之前的博客：python调试器 ipdb
注意：pytorch 分布式调试只能使用侵入式调试，也即是在你需要打断点的地方（或者在主程序的第一行）添加下面的代码：

import pdb
pdb.set_trace()

当进入pdb调试后，跟原先使用pdb调试命令一样，可以在线打断点（再使用pdb命令添加多个断点），也可以逐行执行代码，也能查看变量。唯一缺点是分布式调试需要在代码前手动加上pdb.set_trace()这一行代码，手动打第一个断点。

命令行使用pdb未解决：

命令行进行添加pdb:

python -m pdb -m torch.distributed.launch .....

命令行添加pdb后，进入调试的代码在launch.py中，打断点到主程序后，无法进入到住程序里面，------？？？暂时未解决

2. 方式2：使用pycharm进行分布式调试（侵入式代码）

在主函数开头添加如下代码：

    if args.world_size == 0:
        os.environ['MASTER_ADDR'] = 'localhost' #master节点的ip地址
        os.environ['MASTER_PORT'] = '56220'  #master节点的端口号
        os.environ["RANK"] = "0"
        os.environ['WORLD_SIZE'] = '1' #debug时没有world_size=8参数,只有一个gpu
    torch.distributed.init_process_group(backend="nccl") #分布式后端初始化