问题:zero 是什么模型,用的什么训练?
R1是怎么训练的,用的数据是什么呢?
为啥官方直接用小模型蒸馏推理模型,不是直接训练一个小的推理模型,哪种效果好?
纯强化学习是什么意思呢?
拒绝采样是用来做什么的呢?
● 直接用强化学习就可以让模型获得显著的推理能力,说明并不一定需要SFT才行。
● 强化学习并不一定需要复杂的奖励模型,使用简单的规则反而取得意想不到的效果。
● 通过知识蒸馏让小模型一定程度上也有推理能力,甚至在某些场景下的表现超过了Top模型,比直接在小模型上进行强化学习更好。
DeepSeek-R1-Zero:纯强化学习;
使用纯强化学习训练基础模型,不使用任何监督式微调(SFT)。数据DeepSeek-R1-Zero 在推理能力上取得了突破,但由于缺乏 SFT(人类标注数据的微调)语言混乱(Language Mixing)由于没有 SFT 作为起点,AI 在训练早期会生成很多错误答案,导致强化学习的收敛速度变慢。AI 可能会生成大量重复内容,甚至逻辑混乱,导致输出质量下降。
DeepSeek-R1:
冷启动强化学习,三步:
1、冷启动:使用数千个长思维链(CoT)示例对基础模型进行微调,以此提高回复的可读性和推理质量。
2、强化学习训练:将GRPO应用于微调后的模型,重点关注推理密集型任务(如数学、编程、逻辑)。同时引入语言一致性奖励机制,减少语言混杂现象,提高回复的可读性。
3、拒绝采样和监督式微调:强化学习收敛后,通过拒绝采样收集高质量的推理和非推理数据(如写作、角色扮演相关数据),并利用这些高质量数据对模型进行微调,使其能够处理通用任务。
拒绝采样是一种通过过滤掉模型输出中的低质量或错误结果,来生成高质量数据的技术。其工作流程如下:
- 对于给定的输入(如推理问题),模型生成多个回复;
- 使用奖励函数或基于规则的标准(如正确性、可读性或与人类偏好的一致性)对每个回复进行评估;
- 仅保留最佳回复(如奖励最高或符合特定标准的回复),其余回复则被舍弃。
- 第一轮强化学习主要采用基于规则的奖励机制(如数学问题的准确性奖励 )。然而,在写作、角色扮演和事实问答等通用任务方面,模型仍有待提升。
第二轮强化学习旨在扩展模型除推理之外的能力,使其在更多场景中发挥作用。在这一阶段,引入了奖励模型,用于捕捉人类在复杂、微妙场景中的偏好(如回复的帮助性、无害性、连贯性)。
训练模版
DeepSeek团队设计了如下的训练模型,要求模型按照如下格式进行输出:首先进行推理过程,然后给出最终答案。通过限制输出的结构格式,避免内容偏见,并且可以观察模型在强化学习过程中的推理进展。
奖励模型
DeepSeek-R1-Zero的训练信号来源于奖励系统,主要包括两种奖励类型:
● 准确性奖励:评估模型回答的正确性,适用于数学问题和LeetCode问题,通过规则验证答案。
● 格式奖励:要求模型将思考过程放在特定标签之间(和)。
不使用神经奖励模型,这是因为可能导致奖励黑客问题,且重训练需要额外资源,复杂化训练流程。
DeepSeek-R1:多阶段训练推理能力
第二节端SFT采用80W语料如下构成
在推理导向的强化学习收敛后,DeepSeek-R1 的监督微调(SFT)数据收集流程可分为以下步骤,旨在增强模型在写作、角色扮演等通用任务的能力:
- 推理数据收集(约60万条)
- 拒绝采样生成轨迹:基于强化学习阶段获得的检查点模型,对推理类提示(如数学、代码、逻辑推理任务)生成多组响应,通过拒绝采样筛选最优结果。
- 混合奖励验证:结合基于规则的奖励(如答案准确性、格式规范性)和生成式奖励模型(如DeepSeek-V3),综合评估响应质量。
- 数据过滤策略:剔除包含混合语言思维链、冗余长段落或代码块的输出,确保数据可读性与逻辑连贯性。
- 最终样本选择:每个提示仅保留最高质量响应,最终形成60万条高精度推理训练样本。
- 非推理数据整合(约20万条)
任务类型覆盖:涵盖写作、事实问答、角色扮演、翻译等场景,重用DeepSeek-V3的SFT数据集部分内容。
- 思维链增强处理:对复杂查询(如开放式写作任务),通过DeepSeek-V3生成潜在思维链解释,再提取最终答案;简单查询(如翻译任务)则直接保留原始数据。
- 格式统一优化:将思考过程与最终回答合并至统一字段(如\n\n最终回答),并标记需计算损失的部分,适配模型训练模板。
- 微调与效果提升
两轮迭代训练:将总计80万条样本(推理60万+非推理20万)输入DeepSeek-V3-Base模型,进行两轮微调,学习率与批次大小根据硬件并行策略动态调整。能力扩展验证:微调后模型在保留推理能力的同时,显著提升写作流畅性、角色扮演一致性及多任务泛化性,为后续强化学习对齐人类偏好(如无害性、帮助性)奠定基础。
第二次强化学习
这阶段论文中没有给出具体的实现步骤,仅提供了一段文字概述。在第二次微调后,同样需要再进行一轮强化学习,这一阶段主要是为了提升模型的有用性和无害性,同时改善推理能力,旨在扩展模型除推理之外的能力,使其在更多场景中发挥作用。在这一阶段,引入了奖励模型,用于捕捉人类在复杂、微妙场景中的偏好(如回复的帮助性、无害性、连贯性)
几个结论:
- 对于较小模型,蒸馏优于强化学习:从大型模型中提取知识,比使用大规模强化学习训练小型模型更高效、更经济。
- 强化学习资源消耗大,但可能是突破的关键:尽管蒸馏方法有效,但要突破当前的限制,可能仍需要更强大的基础模型和大规模的强化学习。
- PRM和MCTS面临重大挑战:PRM(强化学习中的过程奖励模型)和MCTS(蒙特卡洛树搜索,强化学习的一种)虽展现出潜力,但最终受限于可扩展性、计算成本和令牌生成的复杂性。
- 通过强化学习增强推理能力
DeepSeek-R1-Zero使用纯强化学习(GRPO),无需冷启动数据,就取得了出色的性能。
DeepSeek-R1借助冷启动数据和强化学习微调,达到了与OpenAI-o1–1217相当的性能。