微软提出训练巨型模型新模式 ZeRO-Offload 训练高达 700 亿参数模型

NoSuchKey