陈丹琦团队提出低内存高效零阶优化器MeZO,单卡A100可训练300亿参数模型

NoSuchKey