一文读懂多模态大模型:强化学习技术全面解读 SFT、RLHF、RLAIF、DPO

        本文从强化学习如何增强大语言模型(LLMs)的视角,进行系统性全面解读,涵盖强化学习的基础知识、流行的RL增强LLMs、基于奖励模型的RL技术(RLHF和RLAIF),以及直接偏好优化(DPO)方法。

        其目的旨在能够根据输出质量获得奖励反馈,从而提高生成内容的准确性、连贯性和上下文适当性

可带着如下问题深入阅读:什么是强化学习以及有哪些强化学习方法,如何在训练过程中引入人类反馈以优化模型行为,以及如何在没有显式奖励模型的情况下直接利用人类偏好数据进行对齐。

01 引言

        大语言模型(LLMs是一些在大量文本数据上预训练的复杂语言模型,使它们能够对多样化的输入产生连贯流畅的响应。然而,这些预训练的大语言模型(LLMs)的互动能力可能不一致,有时会导致响应虽然在技术上正确,但可能对用户有害、有偏见、误导或与用户需求无关。因此,在将这些预训练的LLMs的输出有效地应用于各种自然语言任务之前,将其与人类偏好对齐至关重要

        以前,一种广泛采用的将预训练LLMs的输出与人类偏好对齐的方法是监督微调(SFT)。这种方法进一步在指令、答案)对上对LLMs进行训练,其中“指令”代表给模型的提示,“答案”是根据指令得到的目标输出。SFT帮助引导大语言模型生成符合特定特征或领域知识的响应,使人类能够与大语言模型进行互动。

        尽管SFT效果显著,但它也存在一些限制:

        在训练过程中,模型被限制学习人类提供的具体答案,而像困惑度(PPL)这样的指标会惩罚同义词的使用。一方面,这可能会妨碍大语言模型泛化的能力,因为像写作和总结这样的任务有多种有效的措辞方式。另一方面,它可能导致在符合人类偏好方面的表现不佳,因为在训练过程中没有纳入直接的人类反馈。

        为了缓解上述问题,采用强化学习RL)来对齐大语言模型的输出与人类偏好,可以分为三个步骤

  • 首先,在微调之前,训练一个奖励模型(或奖励函数)来近似人类偏好并为不同的大语言模型输出打分;

  • 然后,在每个微调迭代中,给定一条单独的指示,大语言模型生成多个响应,每个响应都由训练好的奖励模型打分;

  • 最后,策略优化,一种强化学习的优化技术,根据这些偏好分数更新大型语言模型的权重以改进预测。

        使用RL对大语言模型进行微调可以同时解决上述问题。简而言之,RL不是被限制学习一个特定的答案,而是根据各种偏好分数调整大语言模型,奖励任何有效且措辞得当的响应。在另一条线上,奖励模型旨在近似人类偏好,使得可以直接根据人类偏好进行训练,并促进大语言模型(LLM)产生令人印象深刻的创造力。

02 基础知识:强化学习

   强化学习(RL是机器学习中的一个关键方法,关注智能体如何与环境互动以最大化累积奖励。与依赖标注数据的监督学习和在未标注数据中发现模式的无监督学习不同,RL强调通过试错获得直接反馈的学习方式。

        下面,我们依次描述RL的基本定义和一般流程。

2.1 基本定义

        在深入探讨训练过程之前,首先介绍一些相关术语:

智能体:训练来做正确决策的实体。在这个例子中,目标是训练机器人做出移动决策,所以机器人就是智能体。

        环境:环境是智能体与之互动的外部系统。在本例中,随着训练过的机器人(智能体)在网格内移动,网格就充当了环境。

状态:代表智能体在每个时间 t 的位置。在起始时刻,即时间t0,机器人(智能体)位于左下角,因此时间t0的状态是左下角,由坐标(0,0)表示。

        动作:动作代表智能体在每个时间t在环境中可用的可能选择。例如,在开始时,即时间t0,机器人(智能体)可以选择向右或向上移动,使得这两个动作在t0时对智能体可用。

奖励:由环境根据智能体在每个时间 t 采取的动作提供的信号或反馈。例如,在时间 t0,机器人(智能体)向右移动将获得+5分的奖励,向上移动则会被扣除-1分的惩罚。

        策略:一组决策策略,帮助智能体在每个时间 t 选择一个动作。在实践中,在时间t0,策略代表一种概率分布,指导机器人(Agent)向右或向上移动,以最大化其累积奖励。

2.2 强化学习流程

         如图 1 中的训练示例来说明RL的全过程。在这个例子中,我们的目标是训练一个机器人从正方形的左下角移动到右下角。此外,每个网格单元都有一个奖励分数,我们的目标是最大化机器人的总分数

        一般的强化学习RL)流程可以表示为一个马尔可夫决策过程(MDP。具体来说,代理从初始状态 s0 开始,在每个时间步骤 t,它基于当前状态选择一个动作at,然后进入一个新状态 st+1,代理获得奖励rt。这个循环持续进行,代理的目标是最大化其随时间累积的奖励。

        映射到图1中的具体例子,在初始时间t0,机器人位于左下角,由位置(状态)s0 表示。随着

猜你喜欢

转载自blog.csdn.net/u012374012/article/details/145877249
今日推荐