大模型入门到精通：深入探讨大模型是如何构建、训练和微调（二）

之前，我们讨论了训练LLM的前两个主要阶段：

预训练从大量数据集中学习，形成基础模型。
SFT（Supervised Fine-Tuning，监督微调）用精心挑选的示例来优化模型，使其更加实用。

现在，我们将深入探讨下一个主要阶段：RL（Reinforcement Learning，强化学习）。尽管预训练和SFT已经是成熟的方法，但RL仍在不断发展，并且已成为训练流程中的关键环节。

一、RL的目的是什么？

人类和LLM处理信息的方式不同。对于我们来说——像基本的算术——是直观的，但LLM只将文本看作一串token序列，这对LLM来说并不直观。相反，LLM能够在复杂的主题上生成专家级的回答，仅仅因为它在训练过程中见过足够多的示例。

这种认知差异使得人类注释者很难提供一组“完美”的标签，能够持续地引导LLM找到正确的答案。

RL弥补了这一差距，它允许模型从自身的经验中学习。

模型不仅仅依赖显式的标签，而是探索不同的token序列，并根据哪些输出最有用来获得反馈——奖励信号。随着时间的推移，模型学会了更好地与人类意图对齐。

二、RL背后的直觉

LLM是随机的——意味着它们的回答并不是固定的。即使是相同的提示，输出也会有所不同，因为它是从一个概率分布中采样的。

我们可以利用这种随机性，通过并行生成成千上万，甚至数百万个可能的响应。可以把它看作是模型在探索不同的路径——有些是好的，有些是差的。我们的目标是鼓励它更多地选择较好的路径。

为了做到这一点，我们让模型训练在那些导致更好结果的token序列上。与监督微调不同，在监督微调中，人类专家提供标签数据，强化学习则允许模型从自身的学习中获得进步。

模型发现哪些响应最有效，并在每个训练步骤后更新它的参数。随着时间的推移，这使得模型在未来收到相似提示时，更有可能生成高质量的答案。

但是，如何确定哪些响应是最好的？我们应该进行多少RL训练？这些细节是很复杂的，要做到精准并不简单。

三、RL并不是“新”的——它能超越人类专业水平（AlphaGo，2016）

RL的强大力量的一个很好的例子是DeepMind的AlphaGo，它是第一个击败职业围棋选手的AI，并最终超越了人类水平。

在2016年的《自然》杂志论文中（如下图所示），当一个模型纯粹通过SFT训练（给模型大量好的例子让其模仿）时，模型能够达到人类水平的表现，但永远无法超越它。

虚线代表韩国围棋选手李世石的表现。这是因为SFT关注的是复制，而非创新——它不能让模型发现超越人类知识的新策略。然而，RL使AlphaGo能够与自己对弈，改进策略，并最终超越人类的专业水平（蓝线）。

RL代表了AI的一个令人兴奋的前沿——在我们将模型训练在一个多样且具有挑战性的问题池中时，模型能够探索超越人类想象的策略，从而优化其思维策略。

四、RL基础回顾

让我们快速回顾一下典型RL设置的关键组成部分：

Agent（智能体） 学习者或决策者。它观察当前的状态（state），选择一个动作（action），然后根据结果（reward）更新其行为。
Environment（环境）智能体所操作的外部系统。
State（状态）在给定时间步t的环境快照。

在每个时间戳，agent在环境中执行一个动作，该动作将环境的状态改变为新的状态。智能体还会收到反馈，表明该动作的好坏。这个反馈称为奖励（reward），并以数字形式表示。正奖励鼓励该行为，负奖励则不鼓励该行为。

通过使用来自不同状态和动作的反馈，智能体逐渐学习出最佳策略，以便在时间上最大化总奖励。

策略

策略是Agent的决策规则。如果Agent遵循一个好的策略，它将始终做出正确的决策，从而在多个步骤中获得更高的奖励。

用数学术语来说，策略是一个函数，它确定给定状态下不同输出的概率：（πθ(a|s)）。

价值函数

估计处于某个状态下的好坏程度，考虑长期期望奖励。对于LLM（大语言模型）而言，奖励可能来自人类反馈或奖励模型。

Actor-Critic架构

这是一个流行的强化学习设置，结合了两个组件：

Actor（演员）学习并更新策略（πθ），决定在每个状态下应该采取哪个动作。
Critic（评论者）评估价值函数（V(s)），为演员提供反馈，告知其选择的动作是否导致了好的结果。

工作原理：

演员基于当前策略选择一个动作。
评论者评估结果（奖励 + 下一个状态）并更新其价值估计。
评论者的反馈帮助演员优化策略，使未来的动作能够获得更高的奖励。

将其与LLM结合

状态可以是当前的文本（提示或对话），而动作则是生成的下一个token（词或子词）。奖励模型（例如人类反馈）告诉模型它生成的文本是好是坏。

策略是模型选择下一个token的策略，而价值函数则估计当前文本上下文在最终生成高质量响应方面的有益程度。

DeepSeek-R1

为了强调RL的重要性，接下来我们将探索DeepSeek-R1，这是一种推理模型，在保持开源的同时达到了顶尖的性能。该论文介绍了两个模型：DeepSeek-R1-Zero和DeepSeek-R1。

DeepSeek-R1-Zero仅通过大规模的RL进行训练，跳过了SFT。
DeepSeek-R1在此基础上构建，解决了遇到的挑战。

让我们深入探讨一下这些关键点。

1. RL算法：GRPO

一个关键的改变游戏规则的RL算法是GRPO (Group Relative Policy Optimisation，群组相关策略优化)，它是广受欢迎的PPO（Proximal Policy Optimisation，近端策略优化）的变种。GRPO在2024年2月的《DeepSeekMath》论文中被引入。

为什么选择GRPO而不是PPO？

PPO在推理任务中的表现较差，原因如下：

依赖于评论者模型（Critic model）。
PPO需要一个单独的评论者模型，实际上会增加内存和计算开销。
训练评论者模型在处理细致或主观任务时可能变得复杂。
高计算成本，因为RL流水线需要大量资源来评估和优化响应。
绝对奖励评估。

当依赖于绝对奖励时——即只有一个标准或度量来判断答案是“好”还是“坏”——它很难捕捉到不同推理领域中开放性任务的细微差别。

GRPO是如何解决这些挑战的？

GRPO通过使用相对评估而消除了评论者模型——响应是在一个组内进行比较，而不是通过固定标准来判断。

可以想象学生在解决问题。与其让老师单独批改每个学生的作业，不如让他们比较答案，从中学习。随着时间的推移，表现会趋向于更高质量。

GRPO如何融入整个训练过程？

GRPO通过修改损失计算方式，而保持其他训练步骤不变：

1. 收集数据（查询 + 响应）

对于LLM，查询就像是问题。

旧策略（模型的旧快照）为每个查询生成多个候选答案。

2. 分配奖励——每个组中的响应都会被评分（即“奖励”）。

3. 计算GRPO损失通常，你会计算损失——这显示了模型预测与真实标签之间的偏差。然而，在GRPO中，你测量的是：

3.1 新策略生成过去响应的可能性有多大？
3.2 这些响应相对更好还是更差？
3.3 应用裁剪以防止极端更新。

这将得到一个标量损失。

4. 反向传播 + 梯度下降

反向传播计算每个参数对损失的贡献。

梯度下降更新这些参数以减少损失。

经过多次迭代，这会逐渐调整新策略，使其更倾向于产生高奖励响应。

5. 偶尔更新旧策略，使其与新策略匹配。这为下一轮比较刷新了基准。

2. CoT（Chain of Thought，思维链）

传统的LLM训练流程是预训练 → SFT → RL。然而，DeepSeek-R1-Zero跳过了SFT，允许模型直接探索CoT推理。

就像人类在思考一个棘手问题时，CoT使得模型能够将问题分解为中间步骤，从而增强复杂的推理能力。OpenAI的o1模型也利用了这一点，正如其2024年9月报告中所指出的：o1的表现随着更多RL（训练时计算）和更多推理时间（测试时计算）的增加而提升。

DeepSeek-R1-Zero表现出反思性倾向，能够自我精炼推理过程。论文中的一个关键图表显示，随着训练的进行，思考的深度增加，导致了更长（更多token）、更详细且更优的响应。

在没有显式编程的情况下，它开始重新审视过去的推理步骤，从而提高了准确性。这突显了思维链推理作为RL训练的一种涌现特性。

模型还经历了一个“啊哈时刻”（见下图）——这是一个令人着迷的例子，展示了RL如何导致意想不到且复杂的结果。

注意：与DeepSeek-R1不同，OpenAI没有在o1中展示完整的推理链条，因为他们担心蒸馏风险——即有人试图模仿这些推理痕迹，通过模仿恢复大量的推理性能。相反，o1只会总结这些思维链条。

RLHF（Reinforcement learning with Human Feedback，带有人工反馈的强化学习）

对于具有可验证输出的任务（例如数学问题、事实问答），AI的回答可以轻松评估。但对于像总结或创意写作这样没有单一“正确”答案的领域，如何处理呢？

这就是人工反馈的作用所在——但是天真的强化学习方法是不可扩展的。

让我们用一些任意数字来看一下朴素的方法。

这需要十亿次人工评估！这太昂贵、缓慢且不可扩展。因此，一个更智能的解决方案是训练一个AI“奖励模型”来学习人类的偏好，从而大大减少人工工作量。

与绝对评分相比，对响应进行排名也更容易且更直观。

RLHF的优点：

可以应用于任何领域，包括创意写作、诗歌、总结以及其他开放性任务。
对输出进行排名比人工标签生成创意输出更容易。

RLHF的缺点：

奖励模型是近似的——它可能无法完美反映人类的偏好。
RL擅长利用奖励模型的漏洞——如果运行时间过长，模型可能会利用这些漏洞，生成荒谬的输出但仍获得高分。

需要注意的是，RLHF与传统的RL不同。

对于可以进行经验验证的领域（例如数学、编程），RL可以无限运行并发现新的策略。而RLHF则更像是一个微调步骤，用来将模型与人类的偏好对齐。

如何系统学习掌握AI大模型？

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

一、RL的目的是什么？

二、RL背后的直觉

三、RL并不是“新”的——它能超越人类专业水平（AlphaGo，2016）

四、RL基础回顾

策略

价值函数

Actor-Critic架构

将其与LLM结合

DeepSeek-R1

1. RL算法：GRPO

2. CoT（Chain of Thought，思维链）

如何系统学习掌握AI大模型？

1. 成长路线图&学习规划

2. 大模型经典PDF书籍

3. 大模型视频教程

4. 2024行业报告

5. 大模型项目实战

6. 大模型面试题

猜你喜欢

目录

热门文章