DeepSeek对比ChatGPT有何改进,可以用更低成本计算

下面是基于DeepSeek公开论文和代码,与ChatGPT对比后总结的改进点,以及其为何能用更少算力训练大模型的解析。

https://arxiv.org/pdf/2412.19437


1. 改进点对比

1.1 架构稀疏化与混合专家(MoE)设计

  • DeepSeek采用稀疏激活与混合专家架构
    在DeepSeek中,模型被设计成一个混合专家(Mixture of Experts, MoE)系统,其中每次输入只激活部分专家网络,而不是整个模型。
    • 效果:这样一来,即使模型总参数量非常大,但每次计算只使用其中一小部分,极大地降低了前向和反向传播时的计算量。
  • 对比ChatGPT
    ChatGPT(例如GPT-4࿰

猜你喜欢

转载自blog.csdn.net/leread/article/details/147036605
今日推荐