deepSpeed多机多卡训练服务器之间，和服务器内两个GPU是怎么通信

DeepSpeed 在多机多卡训练时，主要依赖 NCCL 和 PyTorch Distributed 进行通信。具体来说，分为服务器之间和服务器内两种情况：

DeepSpeed 采用 NCCL（NVIDIA Collective Communications Library）作为主要的通信后端，结合 PyTorch Distributed 实现数据同步。其核心原理如下：

进程组通信：DeepSpeed 使用 torch.distributed 进行 进程组（Process Group） 管理，每个 GPU 都是一个独立进程，每个服务器上的所有进程形成一个集群。
NCCL 后端通信：
- 主要使用 AllReduce、AllGather 和 ReduceScatter 进行梯度同步和参数聚合。
- NCCL 通过 InfiniBand 或 RDMA 提供高带宽、低延迟的通信能力。
- 默认使用 TCP 或 RDMA 进行数据传输，具体取决于网络配置。
Rendezvous 机制：DeepSpee