截至2024年7月,DeepSeek(深度求索)作为一家专注于AGI(通用人工智能)技术研发的中国公司,已发布了多个版本的AI模型,涵盖自然语言处理、多模态理解及生成等领域。以下是其核心模型版本及特点的梳理:
目录
一、基础模型系列
1. DeepSeek v1
-
发布时间:2023年
-
关键特性:
-
参数量:覆盖7B、67B等规模(B=十亿参数)。
-
训练数据:基于超大规模高质量中英文语料库,包含数万亿token。
-
能力特点:通用文本理解与生成,支持复杂推理、代码生成等任务。
-
-
应用场景:企业级知识问答、数据分析、自动化报告生成等。
2. DeepSeek v2
-
发布时间:2024年
-
升级亮点:
-
架构优化:引入混合专家模型(MoE)架构,提升推理效率。
-
性能提升:相同参数量下,生成质量显著提高,支持更长上下文(如128k tokens)。
-
多模态扩展:部分版本整合视觉、语音等多模态输入能力。
-
-
代表模型:DeepSeek-MoE-16B(开源)、DeepSeek-V2(API服务)。