DeepSeek-V3到DeepSeek-R1的演进

在这里插入图片描述


在这里插入图片描述

从DeepSeek-V3到DeepSeek-R1的演进分为两个阶段:R1-Zero阶段R1阶段,具体技术路径如下:


一、从V3到R1-Zero(纯强化学习阶段)

目标:不依赖任何监督微调(SFT)数据,直接通过强化学习激活推理能力。
关键技术步骤

  1. 基于规则的奖励设计

    • 抛弃传统神经奖励模型(RM),采用双奖励机制
      • 答案正确性奖励:根据数学/代码题答案的客观准确性计算。
      • 格式正确性奖励:强制输出符合特定标签格式(如<think><answer>分段)。
    • 优势:避免“奖励劫持”(Reward Hacking),提升训练稳定性。
  2. GRPO算法训练

    • 群体相对策略优化(GRPO)
      • 对每个问题生成16组回答(Group Size=16),计算组内奖励的均值和标准差。
      • 归一化奖励:将每个回答的奖励减去均值并除以标准差,生成相对优势信号。
      • 优化目标:最大化策略的期望奖励,同时通过KL散度约束防止策略偏离初始模型。
    • 工程优化:采用动态截断的KL散度计算(k3 KL估计),避免蒙特卡洛估计的高方差。
  3. 自演化推理能力

    • 模型通过高温采样生成长思维链(CoT),逐步出现自我验证反思行为。
    • 思维链长度从数百token增长至数万token(如数学题解答过程逐步细化)。
    • 结果:在MATH-500等数学基准上准确率提升至71%,代码生成Elo评分达1892。

局限性:输出可读性差(如语言混杂、格式混乱),泛化能力弱于R1。


二、从R1-Zero到R1(多阶段对齐优化)

目标:提升模型稳定性、可读性及通用能力。
关键技术步骤

  1. 冷启动SFT

    • 使用R1-Zero生成200条高质量思维链数据(含反思与验证步骤),对V3-Base微调。
    • 目的:提供初始策略,缓解纯强化学习初期的不稳定性。
  2. 强化学习增强推理

    • 继承GRPO框架,新增语言一致性奖励:强制输出语言统一(如仅用中文或英文)。
    • 采用课程学习策略:优先训练简单推理任务,逐步提升问题复杂度。
  3. 自动化数据生成与筛选

    • 用R1-Zero生成60万条推理数据(含数学、编程、逻辑题),通过规则过滤和V3打分筛选。
    • 混合20万条通用数据(非推理任务),构建混合SFT数据集。
  4. 拒绝采样与二次微调

    • 对R1-Zero的高分输出进行拒绝采样(Rejection Sampling),保留前10%高质量结果。
    • 结合通用数据对模型进行二次监督微调,提升多任务泛化能力。
  5. 全场景强化学习对齐

    • 最终阶段采用混合奖励函数:
      • 推理奖励(60%权重)+ 语言一致性奖励(20%)+ 安全性奖励(20%)。
    • 优化模型对人类偏好(如无害性、信息量)的响应能力。

三、关键技术创新对比

阶段 核心技术 数据依赖 效果提升重点
R1-Zero 纯GRPO强化学习、双规则奖励 无人工标注 推理能力突破
R1 冷启动SFT、语言一致性奖励、拒绝采样 自生成SFT数据 可读性、泛化性、安全性对齐

总结

  • R1-Zero:通过纯强化学习从V3-Base直接激发推理能力,但存在输出质量缺陷。
  • R1:以R1-Zero为起点,通过冷启动SFT→强化学习→数据生成→二次微调四步迭代,平衡推理能力与通用性,最终成为兼顾性能与实用性的模型。
  • 训练成本:R1-Zero训练消耗约120万GPU小时,R1全流程成本降至557万美元(仅为GPT-4同类训练的1/30)。