下面是基于DeepSeek公开论文和代码,与ChatGPT对比后总结的改进点,以及其为何能用更少算力训练大模型的解析。
https://arxiv.org/pdf/2412.19437
1. 改进点对比
1.1 架构稀疏化与混合专家(MoE)设计
- DeepSeek采用稀疏激活与混合专家架构:
在DeepSeek中,模型被设计成一个混合专家(Mixture of Experts, MoE)系统,其中每次输入只激活部分专家网络,而不是整个模型。
-
- 效果:这样一来,即使模型总参数量非常大,但每次计算只使用其中一小部分,极大地降低了前向和反向传播时的计算量。
- 对比ChatGPT:
ChatGPT(例如GPT-4