一文读懂多模态大模型：强化学习技术全面解读 SFT、RLHF、RLAIF、DPO

企业开发 2025-04-08 06:55:24 阅读次数: 0

本文从强化学习如何增强大语言模型（LLMs）的视角，进行系统性全面解读，涵盖强化学习的基础知识、流行的RL增强LLMs、基于奖励模型的RL技术（RLHF和RLAIF），以及直接偏好优化（DPO）方法。

其目的旨在能够根据输出质量获得奖励反馈，从而提高生成内容的准确性、连贯性和上下文适当性。

可带着如下问题深入阅读：什么是强化学习以及有哪些强化学习方法，如何在训练过程中引入人类反馈以优化模型行为，以及如何在没有显式奖励模型的情况下直接利用人类偏好数据进行对齐。

01 引言

大语言模型（LLMs）是一些在大量文本数据上预训练的复杂语言模型，使它们能够对多样化的输入产生连贯流畅的响应。然而，这些预训练的大语言模型（LLMs）的互动能力可能不一致，有时会导致响应虽然在技术上正确，但可能对用户有害、有偏见、误导或与用户需求无关。因此，在将这些预训练的LLMs的输出有效地应用于各种自然语言任务之前，将其与人类偏好对齐至关重要。

以前，一种广泛采用的将预训练LLMs的输出与人类偏好对齐的方法是监督微调（SFT）。这种方法进一步在（指令、答案）对上对LLMs进行训练，其中“指令”代表给模型的提示，“答案”是根据指令得到的目标输出。SFT帮助引导大语言模型生成符合特定特征或领域知识的响应，使人类能够与大语言模型进行互动。

尽管SFT效果显著，但它也存在一些限制：

在训练过程中，模型被限制学习人类提供的具体答案，而像困惑度（PPL）这样的指标会惩罚同义词的使用。一方面，这可能会妨碍大语言模型泛化的能力，因为像写作和总结这样的任务有多种有效的措辞方式。另一方面，它可能导致在符合人类偏好方面的表现不佳，因为在训练过程中没有纳入直接的人类反馈。

为了缓解上述问题，采用强化学习（RL）来对齐大语言模型的输出与人类偏好，可以分为三个步骤：

首先，在微调之前，训练一个奖励模型（或奖励函数）来近似人类偏好并为不同的大语言模型输出打分；

然后，在每个微调迭代中，给定一条单独的指示，大语言模型生成多个响应，每个响应都由训练好的奖励模型打分；

最后，策略优化，一种强化学习的优化技术，根据这些偏好分数更新大型语言模型的权重以改进预测。

使用RL对大语言模型进行微调可以同时解决上述问题。简而言之，RL不是被限制学习一个特定的答案，而是根据各种偏好分数调整大语言模型，奖励任何有效且措辞得当的响应。在另一条线上，奖励模型旨在近似人类偏好，使得可以直接根据人类偏好进行训练，并促进大语言模型（LLM）产生令人印象深刻的创造力。