源自: AINLPer(每日干货分享!!)
编辑: ShuYini
校稿: ShuYini
时间: 2025-3-19
引言
DeepSeek-V3新版本:DeepSeek-V3-0324昨夜悄悄上线了。参数量685B的V3,代码数学推理再次显著提升,甚至代码追平Claude 3.7。
链接:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
参数量与性能提升
- 参数量:DeepSeek-V3-0324的参数量达到685B,相比上一版本671B略有增加。
- 代码能力:代码生成和理解能力显著提升,能够与Claude 3.7 Sonnet相媲美,甚至在某些任务上超越了DeepSeek R1和GPT-4.5。
- 数学推理能力:数学推理能力大幅提升,能够解决一些复杂的数学问题,甚至包括一些原本只有推理模型才能处理的问题,如“4升水壶问题”。
开源与灵活性
- 开源协议:采用MIT开源协议,相比上一版本的自定义许可证更加开放。用户可以自由修改、分发模型,还支持模型蒸馏和商业化应用。
- 模型文件:模型文件总计641GB,主要以
.safetensors
格式存在,便于用户下载和使用。
运行效率与设备兼容性
- 量化技术:通过4-bit量化技术,模型的磁盘占用空间减少到352GB,大大降低了存储需求。
- 消费级设备支持:在苹果M3 Ultra上,通过MLX框架实现了超过20 token/s的运行速度,表明该模型可以在消费级设备上高效运行。
- 体验平台:除了本地运行,用户还可以通过OpenRouter平台体验DeepSeek-V3-0324。
多语言能力
- 多语言基准测试:在Aider的多语言基准测试中,DeepSeek-V3-0324取得了55%的成绩,较前代版本显著提升,成为仅次于Sonnet 3.7的非推理类模型第二名。
特定任务表现
- 物理模拟:在20个小球碰撞测试中,DeepSeek-V3-0324的表现优于上一版本,物理模拟能力有所提升。
- 数学竞赛:能够顺利解决AIME 2025中的数学题目,显示出较强的数学解题能力。
- 网页生成:能够根据简短的提示词生成完整的HTML5网页代码,前端开发能力显著增强。
猜想
- 基础架构:DeepSeek-V3-0324很可能是DeepSeek-R2的基础架构,预计几周后将推出专门的推理增强版。
- 行业影响:DeepSeek的这种快速迭代和开源策略,可能会对全球AI格局产生深远影响,推动开源模型的发展,缩小中美AI能力差距。
推荐阅读
[1] 盘点一下!大模型Agent的花式玩法,涉及娱乐、金融、新闻、软件等各个行业
[2] 一文了解大模型Function Calling
[3] 2025年的风口!| 万字长文让你了解大模型Agent
[4] 万字长文!最全面的大模型Attention介绍,含DeepSeek MLA,含大量图示!
[5]一文带你详细了解:大模型MoE架构(含DeepSeek MoE详解)
[6] 颠覆大模型归一化!Meta | 提出动态Tanh:DyT,无归一化的 Transformer 性能更强