DeepSeek-V3到DeepSeek-R1的演进

在这里插入图片描述

从DeepSeek-V3到DeepSeek-R1的演进分为两个阶段：R1-Zero阶段和R1阶段，具体技术路径如下：

目标：不依赖任何监督微调（SFT）数据，直接通过强化学习激活推理能力。
关键技术步骤：

基于规则的奖励设计
- 抛弃传统神经奖励模型（RM），采用双奖励机制：
  - 答案正确性奖励：根据数学/代码题答案的客观准确性计算。
  - 格式正确性奖励：强制输出符合特定标签格式（如<think>与<answer>分段）。
- 优势：避免“奖励劫持”（Reward Hacking），提升训练稳定性。
GRPO算法训练
- 群体相对策略优化（GRPO）：
  - 对每个问题生成16组回答（Group Size=16），计算组内奖励的均值和标准差。
  - 归一化奖励：将每个回答的奖励减去均值并除以标准差，生成相对优势信号。
  - 优化目标：最大化策略的期望奖励，同时通过KL散度约束防止策略偏离初始模型。
- 工程优化：采用动态截断的KL散度计算（k3 KL估计），避免蒙特卡洛估计的高方差。
自演化推理能力
- 模型通过高温采样生成长思维链（CoT），逐步出现自我验证和反思行为。
- 思维链长度从数百token增长至数万token（如数学题解答过程逐步细化）。
- 结果：在MATH-500等数学基准上准确率提升至71%，代码生成Elo评分达1892。

局限性：输出可读性差（如语言混杂、格式混乱），泛化能力弱于R1。

目标：提升模型稳定性、可读性及通用能力。
关键技术步骤：

冷启动SFT
- 使用R1-Zero生成200条高质量思维链数据（含反思与验证步骤），对V3-Base微调。
- 目的：提供初始策略，缓解纯强化学习初期的不稳定性。
强化学习增强推理
- 继承GRPO框架，新增语言一致性奖励：强制输出语言统一（如仅用中文或英文）。
- 采用课程学习策略：优先训练简单推理任务，逐步提升问题复杂度。
自动化数据生成与筛选
- 用R1-Zero生成60万条推理数据（含数学、编程、逻辑题），通过规则过滤和V3打分筛选。
- 混合20万条通用数据（非推理任务），构建混合SFT数据集。
拒绝采样与二次微调
- 对R1-Zero的高分输出进行拒绝采样（Rejection Sampling），保留前10%高质量结果。
- 结合通用数据对模型进行二次监督微调，提升多任务泛化能力。
全场景强化学习对齐
- 最终阶段采用混合奖励函数：
  - 推理奖励（60%权重）+ 语言一致性奖励（20%）+ 安全性奖励（20%）。
- 优化模型对人类偏好（如无害性、信息量）的响应能力。

阶段	核心技术	数据依赖	效果提升重点
R1-Zero	纯GRPO强化学习、双规则奖励	无人工标注	推理能力突破
R1	冷启动SFT、语言一致性奖励、拒绝采样	自生成SFT数据	可读性、泛化性、安全性对齐