LLM 后训练：深入探究大语言模型的推理（上）

企业开发 2025-04-08 11:46:08 阅读次数: 0

25年2月来自阿联酋 MBUAI、UCF、UC Merced 和牛津大学的论文“LLM Post-Training: A Deep Dive into Reasoning Large Language Models”。

大语言模型 (LLM) 已经改变自然语言处理领域，并为各种应用带来生机。对大量网络规模数据的预训练为这些模型奠定了基础，但研究界现在越来越多地将重点转向后训练技术，以实现进一步的突破。虽然预训练提供广泛的语言基础，但后训练方法使 LLM 能够完善其知识、改进推理、提高事实准确性，并更有效地与用户意图和道德考虑保持一致。微调、强化学习和测试-时间规模化已成为优化 LLM 性能、确保稳健性和提高各种实际任务适应性的关键策略。本综述系统地探索后训练方法，分析它们在改进 LLM 方面的作用，超越预训练，解决灾难性遗忘、奖励黑客和推理-时间权衡等关键挑战。其重点介绍模型对齐、可规模化适应和测试-时间的推理方面的新方向，并概述未来的研究方向。

当代大语言模型 (LLM) 在广泛的任务范围内展现出卓越的能力，不仅包括文本生成 [1, 2, 3] 和问答 [4, 5, 6, 7]，还包括复杂的多步骤推理 [8, 9, 10, 11]。它们为自然语言理解 [12, 13, 14, 15, 16, 17]、内容生成 [18, 19, 20, 21, 22, 23, 24, 25]、自动推理 [26, 27, 28, 29] 和多模态交互 [30, 31, 32, 33] 等应用提供支持。利用庞大的自监督训练语料库，这些模型通常可以近似于人类的认知 [34、35、36、37、38]，在现实世界中表现出令人印象深刻的适应性。尽管取得这些令人瞩目的成就，但 LLM 仍然容易出现严重缺陷。它们可能会产生误导性或事实上不正确的内容（通常称为“幻觉”），并且可能难以在整个扩展话语中保持逻辑一致性 [41、42、43、44、45、46]。此外，LLM 中的推理概念仍然是一个争论的话题。虽然这些模型可以产生看似逻辑连贯的响应，但它们的推理与类似人类的逻辑推理有着根本的不同 [47、34、48、49]。这种区别至关重要，因为它有助于解释为什么 LLM 可以产生令人信服的输出，同时仍然会在相对简单的逻辑任务上遇到困难。与操纵显式规则和事实的符号推理不同，LLM 以隐式和概率的方式运行 [50, 42, 51]。本文讨论的LLM 中“推理”，是指它们能够根据数据中的统计模式生成逻辑上连贯的响应，而不是显式的逻辑推理或符号操纵。此外，纯粹通过下一个token预测训练的模型，可能无法满足用户期望或道德标准，尤其是在模糊或恶意场景中 [4, 52]。这些问题强调需要专门的策略来解决 LLM 输出中的可靠性、偏差和上下文敏感性。

LLM 训练大致可分为两个阶段：预训练，通常依赖于大规模语料库上的下一个token预测目标，以及后训练，包括多轮微调和对齐。后训练机制，旨在通过改进模型行为并使输出与人类意图保持一致来减轻 LLM 的局限性，从而减轻偏差或不准确性 [53]。

将 LLM 适应特定领域的任务通常涉及微调等技术 [54、55、56]，这可以实现特定任务的学习，但存在过拟合的风险并产生高计算成本。为了应对这些挑战，强化学习 (RL) [57、58、59] 等方法通过利用动态反馈和优化序贯决策来增强适应性。此外，规模化技术的进步，包括低秩自适应 (LoRA) [60]、Adaptor 和检索增强生成 (RAG) [61、62、63]，提高计算效率和事实准确性。这些策略与分布式训练框架相结合，促进大规模部署，并进一步提高 LLM 在不同应用中的可用性（如图所示）。通过这些有针对性的后训练干预，LLM 变得更符合人类意图和道德要求，最终提高它们在现实世界中的适用性。

请添加图片描述

a) LLM 中的微调：微调通过更新精选数据集上的参数，使预训练的 LLM 适应特定任务或领域 [64, 65, 66, 54, 55, 67, 56]。虽然 LLM 在经过大规模预训练后具有很好的泛化能力，但微调可提高情绪分析 [68, 69]、问答和医学诊断等特定领域应用 [70, 71, 72] 任务的性能。此过程通常由监督人员进行，可将模型与任务要求保持一致，但也带来了诸如过拟合、高计算成本和对数据偏差的敏感性等挑战 [56, 31, 16]。为此，像 LoRA [60] 和 Adaptor 这样的参数高效技术通过更新显式参数来学习特定于任务的适应性，从而显着降低计算开销。随着模型的专业化，它们可能会难以进行域外泛化，这凸显特别性和多功能性之间的权衡。

b) LLM 中的强化学习：在传统的 RL 中，智体与结构化环境交互，采取离散动作在状态之间转换，同时最大化累积奖励 [73]。RL 领域（例如机器人、棋盘游戏和控制系统）具有定义明确的状态动作空间和明确的目标 [74, 75]。但是，LLM 中的 RL 有很大不同。 LLM 不是从有限的动作集中选择 token，而是从庞大的词汇表中选择 token，其演化状态由不断增长的文本序列组成 [16, 59, 76, 57]。这使规划和信用分配变得复杂，因为 token 选择的影响可能只会在以后显现出来。

基于语言的强化学习中的反馈也比较稀疏 [77]、主观且延迟，依赖于启发式评估和用户偏好，而不是明确的绩效指标 [78, 79, 58]。此外，与通常针对单个目标进行优化的传统强化学习不同，LLM 必须平衡多个有时相互冲突的目标。将基于过程的奖励（例如，思路链推理）与基于结果的评估（例如，响应质量）相结合的混合方法有助于改进学习 [8, 80, 81]。因此，LLM 的强化学习需要专门的优化技术来处理高维输出、非平稳目标和复杂的奖励结构，确保响应保持上下文相关性并与用户期望保持一致。

c) LLM 中的规模化：规模化对于提高 LLM 的性能和效率至关重要。它有助于提高跨任务的泛化能力，但带来重大的计算挑战 [82, 83]。平衡性能和资源效率需要在推理时采取有针对性的策略。诸如 CoT [8] 推理和思维树 (ToT) [84] 框架之类的技术，通过将复杂问题分解为顺序或树状结构的步骤来增强多步骤推理。此外，基于搜索的技术 [85、86、87、88] 可以迭代探索可能的输出，有助于改进响应并确保更高的事实准确性。这些方法与 LoRA [60]、Adaptor 和 RAG [61、62、89] 等方法相结合，优化模型处理复杂、特定领域大规模任务的能力。RAG 通过动态检索外部知识来提高事实准确性，从而减轻静态训练数据的局限性 [62、24、90]。分布式训练框架利用并行处理来管理大模型的高计算需求。测试-时规模化，通过根据任务复杂性动态调整参数来优化推理 [83, 91]。修改深度、宽度或活动层可以平衡计算效率和输出质量，使其在资源有限或多变的条件下很有价值。尽管取得进展，但规模化仍存在一些挑战，例如收益递减、推理时间更长以及环境影响，尤其是当搜索技术在测试期间而不是在训练期间执行时 [82]。确保可访问性和可行性对于保持高质量、高效的 LLM 部署至关重要。

下表概述最近 RL 增强的 LLM 模型，包括它们的参数、架构类型和所采用蒸馏的 RL 方法，以及方便访问的链接。

请添加图片描述

从方法论的角度来看，将 RL 集成到 LLM 推理中通常遵循四个核心步骤：

监督微调 (SFT)：从预训练语言模型开始，随后在高质量、人工制作的示例监督数据集上进行细化。此阶段确保模型获得符合格式和样式指南的基线。
奖励模型 (RM) 训练：收集微调模型生成的输出并进行人工偏好标记。然后训练奖励模型复制这些基于标签的分数或排名，有效地学习将响应文本映射到标量值的连续奖励函数。
RL 微调：最后，通过策略梯度算法（例如 PPO）优化主语言模型，以最大化奖励模型的输出。通过迭代这个循环，LLM 学会在准确性、有用性和风格连贯性等关键维度上产生人类认为更好的响应。
奖励建模与对齐：开发复杂的奖励函数（借鉴人类偏好、对抗性反馈或自动化指标），以引导模型获得连贯、安全且适合上下文的输出。这些奖励对于在多步推理过程中有效分配信用至关重要。

将 LLM 与人类偏好对齐的早期方法，利用了经典的 RL 算法，例如 PPO [73] 和信任区域策略优化 (TRPO) [160]，这些算法通过最大化预期累积奖励来优化策略，同时通过替代目标函数和 KL 散度正则化对策略更新施加约束 [161]。目前，已经出现一些改进的可规模化基于偏好优化方法，例如直接偏好优化 (DPO) [57, 162] 和组相对策略优化 (GRPO) [159, 59, 16]，它们将对齐目标重新表述为基于排名的对比损失函数 [163]，针对人类标记的偏好数据。与依赖显式奖励模型和评论家网络的 PPO 和 TRPO [160] 不同，DPO 和 GRPO 分别利用对数似然比和组奖励比较直接优化策略，从而无需显式价值函数近似，同时保留偏好一致的学习动态。从经典基于 RL 对齐到基于偏好直接优化的转变，引入了新的公式，例如对比排名损失、策略似然比正则化和分组优势估计。

如图所示大语言模型 (LLM) 推理方法概述：通过思维链 (CoT) 提示、自我反馈和 episodic 记忆等方法增强推理能力的途径。重点是多种基于强化学习的优化技术，包括 GRPO、RLHF、DPO 和 RLAIF，用于使用奖励机制和基于偏好的学习来微调推理模型。

请添加图片描述

奖励建模

在实践中，大量查询 x 是从真实或模拟的用户请求中抽取的。候选响应 {y_j} 是通过从基础语言模型中抽样或使用波束搜索或其他解码策略生成的。然后，人工注释者根据预定义的标准（例如质量、正确性、有用性等）提供成对或排名反馈，说明哪些响应更好（或更差）。训练一个参数模型 R_θ (x, y)，称为奖励模型，将每个（查询，响应）对 (x, y) 映射到标量分数。目标是让 R_θ 反映对齐或偏好水平。

显式奖励建模

显式奖励建模，直接根据预定义规则、启发式方法或人工注释定义奖励函数。这种奖励结构涉及来自人类或经过训练以近似人类判断（例如排名或成对比较）的专门 AI 模块直接数字信号。这种方法可以产生精确的奖励估计，但可能耗时或大规模成本高。说明性用例包括“红队”练习，其中专家评估有毒输出的严重程度，或领域专家任务，其中正确性必须由主题专家验证。

隐式奖励建模

隐式奖励建模，从观察的行为、交互或偏好信号间接推断奖励，通常利用机器学习技术来发现潜奖励结构。它从用户交互指标（例如点赞、接受率、点击模式或会话参与时间）中获取信号。虽然它可以以最小的开销积累大量数据集，但这种方法可能会助长以牺牲内容质量或真实性为代价利用参与启发式方法的行为。

奖励函数。为文本生成任务定义奖励函数是一个不适定问题 [166, 167]。LLM 中现有的 RL 方法要么关注生成过程（过程奖励建模），要么关注结果（结果奖励建模），以定形 LLM 行为。

结果奖励建模。其衡量最终结果（例如，最终答案是否在事实上正确或解决了用户的查询）。该模型易于实现，但可能无法提供有关如何得出结论的有限见解。它在短响应任务中很普遍，其中用户主要关注的是最终陈述的正确性或简洁性。对于长响应任务，基于结果的奖励可能导致信用分配问题，即哪些特定动作或状态会导致特定的奖励结果。

过程奖励建模。其在中间推理步骤分配反馈，激励连贯、逻辑一致且结构良好的思维链。这种方法对于涉及数学推导、法律论证或代码调试的任务特别有价值，在这些任务中，通往答案的路径与最终陈述一样重要。在这类问题中，在各个步骤分配的奖励，鼓励透明度和稳健的逐步推理。然而，它需要更复杂的注释过程，例如，需要“黄金”推理步骤或部分信用评分。过程奖励可以与结果奖励相结合，获得强大的多阶段训练信号。

具有自适应奖励模型的迭代强化学习

自适应奖励模型是一种训练方法，旨在通过迭代改进奖励模型和策略模型来不断提高 LLM 的性能。这种方法解决了奖励黑客和奖励模型漂移的挑战，当奖励模型在大规模强化学习训练期间与期望目标不一致时，可能会发生这种情况。强化学习过程分为多个迭代，其中模型以循环方式进行训练。每次迭代后，奖励模型都会根据最新的模型行为和人类反馈进行更新。奖励模型不是静态的，而是随着时间的推移而发展，以更好地适应人类的偏好和任务要求。这种适应性可确保奖励信号在模型改进时保持准确和相关。重复迭代过程，直到模型的性能稳定或达到所需的基准。奖励模型和策略模型共同发展，每次迭代都会使它们更接近最佳对齐。

策略优化

一旦拥有一个训练有素的奖励模型 R_θ(x,y)，能够捕捉人类的偏好，就可以将其集成到 RL 框架中以优化策略 π_φ。本质上，用 R_θ(x,y) 替换（或增强）环境的原生奖励信号，以便智体专注于针对给定查询 x 生成人类喜欢的响应 y。

在典型的 RL 符号中：

这里的每一个状态 s 都可以解释为下一个 token 的部分对话或部分生成过程（在语言建模中）。
每个动作 a 都是要生成的下一个 token（或下一个文本块）。
策略 π_φ(a | s) 是下一个 token 的条件分布，由 φ 参数化。

目的是寻求找到在 R_θ 条件下最大化预期奖励的 φ。设 x 为用户查询，设 y∼π_φ(·|x) 为生成的响应。那么对于从策略 π 得出的用户查询 x 和响应 y，平均地，希望奖励模型的得分 R_θ(x,y) 尽可能高。

策略梯度和优势。现代算法（例如 PPO [73]、GRPO [59]、TRPO [160]）依赖于策略梯度。如图对这些主要的 RL 框架进行了结构化比较。每个框架都基于不同的策略学习、参考建模和奖励计算原则。回想一下，优势函数 A(s, a) 量化动作 a 比基线预期回报 V (s) 好多少。在高层次上，对具有正优势的动作 a，沿增加 π_φ(a | s) 的方向更新策略 π_φ，而对有负优势的动作 a，则是沿减少 π_φ(a | s) 的方向。

请添加图片描述

使用奖励模型 R_θ 时：

将 R_θ(x,y) 解释为生成的响应 y 直接或最终奖励。
因此，策略的未来回报，将影响后续 token 被 R_θ 正评分的可能性。
优势函数仍然捕捉特定生成步骤与基线性能 V (s_t) 相比的优劣程度。

可能性比值偏好优化 (ORPO)

ORPO 是最简单的方法 [168]，它直接从成对的人类偏好中优化策略。ORPO 不是先学习单独的奖励模型，然后运行标准 RL，而是更新策略以增加相对于不喜欢响应（根据人类标签）喜欢响应的可能性。

LLM 中的近端策略优化 (PPO)

PPO [73] 是一种流行的策略优化方法，它是一种使 LLM 与人类反馈保持一致的策略。给定一个由 θ 参数化的策略 π_θ 和一个奖励函数 R，PPO 通过优化一个平衡探索和稳定性的裁剪目标，来更新策略。

从人类反馈中获取强化学习 (RLHF)

RLHF [58] 通过直接的人类偏好信号改进 LLM，使其更符合人类的期望。该过程涉及三个主要步骤。首先，使用高质量标记数据在预训练模型上执行 SFT，以建立强大的语言和事实能力。其次，使用人工注释的生成响应排名训练奖励函数 R，使其能够预测偏好并提供标量奖励信号。第三，在 RLHF [58] 管道中使用 PPO，使用人工提供的偏好分数（或排名）来塑造 R，从而指导策略更新。这可确保模型优先考虑与人类偏好行为一致的输出。在嘈杂或部分奖励信号条件下的稳健性能，使 PPO 非常适合文本生成任务，其中大动作空间和细微的奖励定义很常见。

基于人工智能反馈的强化学习 (RLAIF)

RLAIF [95] 是 RLHF 的一种替代方案，它用人工智能生成的反馈取代人工注释。RLAIF 不依赖人工标记的偏好，而是采用次要的高性能语言模型来生成偏好标签，然后使用这些标签来训练奖励模型。该奖励模型指导基于强化学习的目标模型微调。RLAIF 无需人工注释，从而减少数据收集所需的成本和时间。它能够在不需要大量人工干预的情况下实现大规模模型对齐，同时保持高性能和对齐。实证研究表明，RLAIF [95, 170] 是一种可扩展且高效的 RLHF 替代方案，使其成为强化学习驱动语言模型优化的一个有希望的方向。

信赖域策略优化 (TRPO)

TRPO [160] 是另一种广泛使用的策略优化方法，它先于 PPO，其基本目标也是：提高强化学习更新的稳定性。 TRPO 优化策略更新，同时确保它们保持在受约束的信任区域内，以 KL 散度来衡量。

与使用裁剪近似约束的 PPO 不同，TRPO 直接解决约束优化问题，确保每次更新不会在策略空间中移动太远。但是，解决这个约束问题需要计算成本高昂的二阶优化技术，例如共轭梯度法，这使得 TRPO 对于 LLM 等大规模模型效率较低。在实践中，PPO 比 TRPO 更受欢迎，因为它简单、易于实现，并且在 RLHF 等大规模应用中具有可比的性能。然而，TRPO 仍然是深度强化学习中稳定策略优化的重要理论基础。

直接偏好优化 (DPO)

DPO [162] 是一种最近提出的从人类偏好数据训练 LLM 方法，无需借助传统的 RL 循环（如使用 PPO 的 RLHF）。DPO 不是学习单独的奖励函数，然后运行策略梯度更新，而是直接将人类偏好信号集成到模型的训练目标中。因此，DPO 不是使用上述 PPO 目标，而是构建一个目标，直接提高所选（偏好）响应 (y^+) 的概率，同时降低不太偏好的响应 (y^−) 的概率，所有这些都在单个对数似然框架内完成。DPO 损失不是用裁剪来限制策略变化，而是使用“获胜”和“失败”响应的对数概率之间差异。这明确地将用户的偏好编码在更新的参数中。

关键见解是，LLM 可以被视为“隐奖励模型”：可以重新参数化偏好数据，以便模型自身的对数概率反映出一个响应相对于另一个响应的偏好程度。通过直接调整偏好度较高响应相对于偏好度较低响应的对数似然，DPO 避开基于 RL 的方法的许多复杂性（例如优势函数或显式裁剪）。

离线推理优化 (OREO)

OREO [171] 是一种离线强化学习方法，旨在通过优化软贝尔曼方程 [109] 来增强 LLM 的多步推理能力。与依赖成对偏好数据的 DPO 不同，OREO 使用基于最终结果（例如推理链的正确性）的稀疏奖励，并联合训练策略模型 π_θ 和价值函数 V_φ 以进行细粒度信用分配。

组相对策略优化 (GRPO)

GRPO [59] 通过消除对单独价值函数的需求简化了 PPO 框架。相反，GRPO 根据同一问题多个采样输出的平均奖励来估计基线。GRPO 的主要贡献在于它消除对单独价值模型（批评模型）的需求，而是根据一组采样的 LLM 输出来估计基线奖励。这显著减少内存使用量并稳定策略学习。该方法还与奖励模型的训练方式非常吻合，即通过比较不同 LLM 生成的输出而不是预测绝对值。

多样本比较优化

多样本比较优化 [174] 方法不再仅仅依赖单对比较，而是同时比较多个响应以促进多样性并减轻偏差。

这样每个反应 y_i 都在所有其他反应的背景下进行联合评估，确保比较不是孤立的成对事件，而是更广泛排名框架的一部分，有助于捕捉更细微的偏好并减少潜在的偏差。

基于纯强化学习的 LLM 细化

Guo (2025) [40] 的工作引入两个主要模型：DeepSeek-R1-Zero 和 DeepSeek-R1。

DeepSeek-R1-Zero 采用纯强化学习方法，不包括任何 SFT。
DeepSeek-R1 结合冷启动数据并应用多阶段训练流程。

该方法包括几个步骤（主要步骤见 GRPO）：收集冷启动数据、执行 RL 训练、执行 SFT、使用蒸馏将知识迁移到较小的模型，以及解决语言混合和可读性等特定挑战。这种多阶段流程确保稳健性和与人类偏好的一致性，而蒸馏则能够高效部署较小的模型而不会造成显着的性能损失。

冷启动 RL 阶段

该过程从冷启动 RL 阶段开始，在此阶段收集少量精选数据以微调初始或基础模型。在初步微调之后，进行 RL — 通常通过 GRPO 等算法进行，直到收敛。冷启动阶段对于在进行完整 RL 训练之前稳定模型至关重要，可防止纯 RL 驱动更新可能引起的不稳定性。冷启动数据准备侧重于捕获人类可读的推理模式，以防止纯 RL 驱动更新引起的不稳定性。此步骤生成具有一致 <reasoning_process> 和字段的 CoT 样式示例，通常涉及数千个策划的样本。结构化的 CoT 格式和一致性字段，可确保模型推理输出的清晰度和稳健性，从而减少错误并提高可解释性 [8, 175, 176, 177]。

拒绝采样和微调

此概念也用于 WebGPT [81]。一旦 RL 稳定下来，就会采用拒绝采样机制来生成高质量响应，随后对其进行过滤，以确保正确性、清晰度和其他质量指标。然后，将这些过滤后的响应与其他数据集混合，以生成新的更大语料库，用于监督微调。拒绝采样可确保仅使用高质量输出进行进一步训练，从而提高模型的整体性能和可靠性。在 RL 收敛到高风险推理任务后，拒绝采样用于过滤大量生成的输出，从而扩展训练集。这些新生成的推理示例（数量可能高达数十万）与现有的 SFT 数据混合，以创建一个相当大的组合数据集（通常约为 800k 个样本）。拒绝采样和数据集扩展显著增强模型对一般任务的覆盖范围，同时保持其推理能力。

面向推理的 RL

面向推理的 RL 利用 GRPO [59]，它从当前策略中抽取一组输出并计算每个输出的奖励和优势。奖励可以通过基于规则的检查来计算，例如，确保数学或代码任务中的正确解决方案、强制使用结构化的 CoT 标签以及惩罚不必要的语言混合。基于 GRPO 组的抽样和奖励计算确保模型优先考虑高质量、结构化的输出，从而增强其推理能力。

用于人类对齐的第二个 RL 阶段

第二个 RL 阶段通过引入额外的奖励信号和提示分布，进一步使模型与更广泛的人类偏好（乐于助人、无害、创造力等）保持一致。第二个 RL 阶段确保模型与人类价值观保持一致，使其更加通用和具有情境意识。在该组合数据集上重新训练基础模型后，可以进行第二轮强化学习，以使模型更贴近人类偏好（例如，对有用性和无害性的偏好）。这个强化学习阶段对模型进行微调，使其更好地与人类价值观保持一致，确保输出不仅准确，而且符合语境。

为小型模型的蒸馏

最后，蒸馏技术用于将主模型的蒸馏功能转移到较小的架构，从而实现更高效的部署，而不会牺牲太多性能。它允许较小的模型继承高级推理能力，使它们在具有挑战性的基准上具有竞争力，而无需全规模强化学习训练的计算成本。最后，蒸馏起着关键作用：表现最佳的模型 DeepSeek-R1 [40] 可作为较小架构（例如 Qwen 或 Llama 系列，参数范围从 1.5B 到 70B）的老师。这种迁移允许较小的模型继承高级推理能力，使它们在具有挑战性的基准上具有竞争力，而无需承担全面 RL 训练的计算成本。

如图所示，微调是 LLM 后训练方案的基本组成部分。

请添加图片描述

指令微调

在指令微调中，模型在精心挑选的指令（提示）和响应（完成）对上进行训练。主要目标是引导 LLM 准确而有效地遵循用户提供的指令，而不管任务领域如何。这通常涉及编译涵盖多种任务类型（例如，总结、问答、分类、创意写作）的大型、多样化指令响应数据集。T0 [178]、FLAN [179]、Alpaca [180]、Vicuna [181] 和 Dolly [182] 等模型展示指令微调的 LLM 如何凭借其增强的指令跟随能力在零样本或少样本任务上胜过基础模型。

对话（多轮）微调

一些 LLM 经过对话式微调，以更好地处理多轮对话。与上面描述的指令调整不同，这里的数据采用连续对话（多轮对话）的形式，而不是单个提示-响应对。在这种方法中，训练数据由具有多个用户查询和系统响应的聊天记录组成，确保模型学会在对话中保持上下文并产生连贯的答复。LaMDA [183] 和 ChatGPT [39] 等模型强调对话调整后的 LLM 如何让人感觉更具互动性和情境感知能力。虽然对话微调可以与指令微调重叠（因为许多指令都采用聊天格式），但专门的对话数据通常会产生更自然的多轮用户体验。

CoT 推理微调

思路链 (CoT) 推理微调教会模型产生逐步的推理轨迹，而不仅仅是最终答案。通过揭示中间原理或想法，CoT 微调可以提高复杂任务（例如数学应用题、多跳问答）的可解释性和准确性。在实践中，CoT 微调使用监督推理注释（通常由专家手工制作）来展示解决方案的展开方式。早期值得注意的工作包括思维链提示 [8] 和自我一致性 [184]，它们最初将这个想法应用于提示；后续的努力（例如，思维链提炼 [185]）将其调整为完全微调或学生-教师范式。这些努力也已扩展到多模态领域，例如 LlaVA-CoT [186] 和 LlamaV-o1 [187]，其中 LLM 微调中使用了图像、问答和 CoT 推理步骤。

域特定（专业）微调

当 LLM 需要在特定领域（例如生物医学、金融或法律）中脱颖而出时，就会使用领域特定微调。在这里，使用精选的领域相关文本和标记示例语料库来微调 LLM。例如，BioGPT [71] 和 BiMediX [216] 专注于生物医学文献，FinBERT [217] 专注于金融文本，ClimatGPT [218, 219] 专注于气候和可持续性，CodeT5 [220] 专注于代码理解。这些领域的监督微调通常包括使用领域特定数据的分类、检索或 QA 任务，确保模型的参数适应该领域的专业语言和概念。特定领域的微调也扩展到视觉语言模型，例如，[221]对遥感图像进行微调，[222]对医学成像模式进行微调，[223, 224, 225]对时空视频输入进行微调，[226]适用于图表理解。

基于蒸馏的微调

大型“教师”模型有时用于生成标记数据或原理，较小的“学生”模型对其进行微调，这通常称为知识蒸馏[227, 228]。在法学硕士的背景下，CoT蒸馏[185]就是一个例子，其中一个强大的教师法学硕士生成中间推理步骤，而学生法学硕士经过微调以重现最终答案和推理链。逐步蒸馏[229]在最终答案的同时生成描述性原理，通过使用较小的数据集进行蒸馏来训练较小的模型。这种方法可以产生更轻量、更快的模型，即使在零样本或少样本任务中也能保留教师的大部分表现 [230]。

偏好和对齐 SFT

虽然 RLHF 不是纯监督的，但它从监督偏好或对齐微调阶段开始。此阶段使用人工标记或人工排序的示例来教模型关于可取与不理想的输出（例如，安全与有毒）。通过对这些显式偏好进行训练，模型会变得更加符合用户价值观，从而减少有害或离题的完成。像 InstructGPT [58] 这样的工作，说明了在奖励模型训练和 RL 更新开始之前，监督偏好数据是多么重要。

高效微调

完全微调 LLM 需要大量计算和内存，尤其是当模型大小增长到数百亿或数千亿个参数时。为了应对这些挑战，参数高效微调 (PEFT) 技术引入一小组可训练参数或可学习提示，同时保持大多数模型权重不变。LoRA [60]、前缀-调整 [231] 和适配器 [232] 等方法，通过在特定层中注入轻量级模块（或提示）来体现这一策略，从而显著减少内存占用。

如上图说明这些技术如何融入更广泛的生态系统，该生态系统涉及 LLM 的系统级优化、数据管理和评估策略。特别是，PEFT 方法可以与量化和修剪方法 [190, 188] 相结合，以进一步最小化内存使用量和计算开销，从而能够在较小的 GPU 甚至消费级硬件上进行微调。例如，QLoRA 将 4 位量化与低秩自适应统一起来，而 BitsAndBytes 提供 8 位优化器，使 LLM 训练在受限环境中更加实用（如表所示）。

请添加图片描述

此外，这些 PEFT 方法仍然需要监督数据来指导适应过程，但可训练参数数量的减少使得使用域内或特定于任务的数据集变得更加可行。这对于数据可能有限或注释成本高昂的专业领域（例如医疗或软件开发）尤其有价值。如上表所示，PEFT (HF) 将这些方法中的几种（LoRA、前缀-调整等）集成到一个库中，从而简化了研究和生产环境中的部署。