LLM 后训练：深入探究大语言模型的推理（下）

企业开发 2025-04-08 11:46:23 阅读次数: 0

25年2月来自阿联酋 MBUAI、UCF、UC Merced 和牛津大学的论文“LLM Post-Training: A Deep Dive into Reasoning Large Language Models”。

大语言模型 (LLM) 已经改变自然语言处理领域，并为各种应用带来生机。对大量网络规模数据的预训练为这些模型奠定了基础，但研究界现在越来越多地将重点转向后训练技术，以实现进一步的突破。虽然预训练提供广泛的语言基础，但后训练方法使 LLM 能够完善其知识、改进推理、提高事实准确性，并更有效地与用户意图和道德考虑保持一致。微调、强化学习和测试-时间规模化已成为优化 LLM 性能、确保稳健性和提高各种实际任务适应性的关键策略。本综述系统地探索后训练方法，分析它们在改进 LLM 方面的作用，超越预训练，解决灾难性遗忘、奖励黑客和推理-时间权衡等关键挑战。其重点介绍模型对齐、可规模化适应和测试-时间的推理方面的新方向，并概述未来的研究方向。

。。。。。。。继续。。。。。。。

虽然 RL 可以微调模型的策略，但测试-时间规模化 (TTS) 可以在推理过程中增强推理能力，通常无需更新模型。如图展示 TTS 方法的分类，根据其底层技术来讲：

请添加图片描述

波束搜索

波束搜索最早是在语音识别的背景下引入的 [233]。它作为序列模型的解码策略而声名鹊起，后来被神经机器翻译和语音系统采用 [234]。随着 LLM 的流行，该算法已用于许多文本生成任务中的近似搜索。

波束搜索的概念类似于修剪广度优先搜索，其中在每个步骤中保留前 N 个最高概率的部分序列（“波束”），丢弃概率较低的路径。通过限制波束宽度（N），它管理指数搜索空间，同时旨在找到接近最优的序列。这些波束在每个解码步骤中都会扩展，以找到多个可能的路径。在推理 LLM 中，这样的路径，方便系统地并行探索多个推理链，重点关注最有希望的推理链。这确保高似然推理步骤得到考虑，与贪婪解码相比，这可以提高找到正确且连贯解决方案的机会。它传统上用于翻译、摘要和代码生成等任务，这些任务的目标是高度可能的正确序列 [93]。

虽然现代 LLM 通常倾向于使用随机采样（例如温度采样）来促进生成文本的多样性，但波束搜索对于结构化推理问题仍然是一种有价值的技术。例如，思维树框架 [84] 允许插入不同的搜索算法来探索可能的“思维”或推理步骤的树；一个实例使用波束搜索（波束宽度为 b）来在每个推理步骤中维护 b 个最有希望的状态。在这里，波束搜索用于系统地探索数学谜题和规划问题等任务的解决步骤，修剪不太有希望的推理分支，从而提高模型解决问题的准确性。当人们希望模型在模型学习的分布下输出最可能的推理路径或答案时，波束搜索仍然是测试-时推理的强大基线。

最佳 N 搜索（拒绝抽样）

最佳 N (BoN) [235] 搜索生成 N 个候选输出（通常通过抽样），然后根据所选标准（例如奖励模型或模型自身的可能性）挑选出最佳输出 [236、237、238]。从概念上讲，这是拒绝抽样的一种应用：抽取多个样本并拒绝除最高评分结果之外的所有样本。与逐步扩展和修剪部分假设的波束搜索 [233、234] 不同，BoN 只是独立地对完整解决方案进行抽样，从而实现更大的多样性，但计算成本更高。波束搜索系统地瞄准最可能的序列，而 BoN 可能通过强力抽样捕获高质量但概率较低的解决方案。

在 LLM 推理期间，BoN 用于增强正确性或对齐，而无需重训练模型。通过对多个答案进行抽样并选出最佳候选项（例如，通过奖励模型或检查器），BoN 可以有效提高 QA 或代码生成等任务的准确性。BoN 易于理解和实现，并且几乎不含超参数，N 是唯一可以在推理时调整的参数。在强化学习环境中，BoN 抽样可以作为一种基线探索机制，即生成许多展开，根据学到的奖励选择最佳结果，然后继续进行，尽管这会增加计算开销。OpenAI 的 WebGPT 使用 BoN 通过奖励模型挑选最佳响应，从而获得出色的 QA 性能 [81]。BoN 还可用作一种简单的对齐方法，与其他后训练技术（例如 RLHF [58] 和 DPO [78]）具有很强的竞争力。研究表明，在足够稳健的奖励模型指导下，BoN 可以接近或匹配 RLHF 的结果 [82, 239]。诸如推测性拒绝 [240] 之类的替代方案基于此想法，并利用更好的奖励模型来提高效率。研究还强调奖励黑客问题（如果用于 BoN 的（智体）奖励函数不完善）[241] ，或不稳定问题（如果 N 参数变得非常大）。

计算-最优规模化

计算最优规模化策略 (COS) [83] 是一种动态方法，旨在在 LLM 推理过程中有效分配计算资源，在不产生不必要开销的情况下优化准确性。这种方法不是对所有输入应用统一的采样策略，而是通过利用 oracle 难度（真实成功率）或模型预测难度（例如，偏好排名模型的验证器分数）将提示分为五个难度级别（从易到难）。分类后，该策略会调整计算分配：较容易的提示会经过顺序细化，其中模型会迭代细化其输出以提高正确性，而较难的提示会触发并行采样或波束搜索，从而探索多种响应变化以增加找到正确解决方案的可能性。这种双重方法平衡探索（针对具有挑战性的输入）和细化（针对接近正确的响应），确保每单位计算工作量的最佳性能。值得注意的是，与传统的最佳- N采样相比，该方法的计算使用量降低四倍，同时保持同等的性能。关键见解是，通过将计算策略与问题难度相匹配，它可以避免在琐碎案例上浪费资源，同时确保复杂任务具有足够的采样多样性。本质上，它充当 LLM 推理的“智能恒温器”，根据输入的复杂性动态调整计算工作量，从而更高效、更经济地部署大规模语言模型。

思维链提示

思维链提示会诱导 LLM 产生中间推理步骤，而不是直接跳到最终答案。通过将问题分解为逻辑子步骤，CoT 可以挖掘模型执行多步推理的潜在能力，从而显著提高数学应用题、逻辑谜题和多跳问答等任务的性能。

Wei [8] 证明 CoT 在算术和逻辑任务上的有效性，与直接提示相比，效果显著。Kojima [242] 引入零样本 CoT，表明即使添加一个简单的短语，如“让我们一步一步思考”，也可以在足够大的模型中触发连贯的推理。后续研究（例如 Wang，2022 [184]）将 CoT 与基于采样的策略（自一致性）相结合，以获得更高的准确性。 CoT 格式数据也已用于 SFT，并被证明有助于重塑模型响应，使其更加循序渐进。

自洽解码

自洽解码是 Wang [243]提出的一种解码策略。它被提出作为思维链（CoT）提示简单贪婪解码的替代方案。它建立在对一个问题采样多个不同推理路径的想法之上，并首次表明对这些路径进行边缘化可以显著提高算术和推理问题的准确性。换句话说，它允许模型以多种方式思考，然后信任共识，从而提高许多推理场景的正确性。

自洽方法的工作原理，是从模型中采样一组不同的推理链（通过提示工程来鼓励不同的 CoT，并使用温度采样），然后让模型为每个链输出最终答案。该方法不是信任单个链，而是选择在这些多条推理路径中最一致的答案，实际上是在边缘化潜推理后的多数票或最高概率答案。直觉是，如果一个复杂问题有一个唯一的正确答案，那么不同的有效推理路径应该会收敛到同一个答案。通过汇集许多链的结果，模型可以“决定”哪个答案最受支持。在应用中，人们可能会对一个数学问题进行抽样，例如，抽取 20 个 CoT，看看哪个最终答案出现得最频繁；然后把那个答案作为模型的输出。这种方法将一次性 CoT 过程变成一个集合，模型在其中交叉验证其答案。它对于推理多样性有帮助的算术和常识推理任务特别有用。

自洽性通常与其他方法结合使用：例如，抽样多个链，然后将验证器应用于最常见的答案。它的优势在于不需要新的训练，只需要额外的抽样，这使其成为一种流行的测试-时间规模化策略，可以从 LLM 中获得更可靠的答案。它也启发了其他变型，例如，通用自一致性 [244] 将原始想法（仅适用于对单个最终答案的多数投票）扩展到更一般的生成任务，例如摘要和开放式问答。

思维树（ToT）

ToT 框架 [84] 通过允许模型分支成多个可能的思维序列而不是遵循单个线性链来泛化思维链方法。因此，它将语言模型推理问题表述为树搜索，借鉴受人类问题解决启发的经典 AI 搜索方法 [245, 37]。思维树将中间推理步骤视为搜索树中的“节点”，并使用语言模型从给定状态扩展可能的后续步骤（思维）。该模型不是对一条长推理路径进行采样，而是探索分支思维树，并可以执行前瞻和回溯。在每一步，LLM 可能会生成几个候选的下一个想法，启发式或价值函数会评估每个部分解决方案状态。然后，搜索算法（例如深度优先、广度优先、波束搜索）浏览这棵树，决定进一步探索哪些分支。这种方法允许系统地探索不同的推理策略：如果一条路径通向死胡同，模型可以返回到较早的状态并尝试不同的分支（与致力于一条推理路线的标准 CoT 不同）。实际上，ToT 是一个迭代提示程序，其中模型生成想法、评估它们并改进其方法，模仿人类如何在脑海中规划出解决问题的各种方法。

ToT 对于复杂问题（如谜题、规划任务或需要多个步骤和战略探索的游戏）特别有用，并且通过系统地搜索解决方案空间，其表现优于更简单的 CoT 方法。它提供一个灵活的框架——可以根据任务插入各种生成策略（例如采样与提示）和搜索算法（BFS、DFS、A*、MCTS）。尽管计算量更大，但 ToT 表明，分配额外的“思考时间”（计算）来探索替代方案可以显著提高推理和规划性能。它引发了后续研究，旨在改进或利用它来进行更好的推理，例如，多智体系统与 ToT 相结合：不同的 LLM“智体”并行产生想法，验证智体修剪不正确的分支，从而比单智体 ToT 的准确性有所提高 [246]。

思维图

思维图 (GoT) [247] 框架通过基于图的结构而不是严格的层次树允许更灵活、更高效的推理过程，从而扩展了 ToT。两种方法的思维表示不同：在 ToT 中，推理中的每个步骤都被构造为具有固定父子关系的树中节点，而 GoT 将思想表示为图中的节点，从而实现更具适应性的依赖关系和互连。

在思维扩展策略方面，ToT 遵循传统方法，即在每个步骤生成多个思维候选，使用基于树的搜索策略进行探索，并根据启发式方法进行修剪，然后选择最优路径。相比之下，GoT 结合基于图的思维扩展，允许思想动态互连。这实现了三个关键转换：聚合（将多个解决方案合并为一个统一的答案）、细化（随着时间的推移迭代改进思想）和生成（产生不同的候选）。 GoT 不会在严格的层次结构中导航，而是使用一个体度量对想法进行优先排序，并以最佳方式探索路径，从而减少不必要的计算。

ToT 的一个关键限制是其受限制的回溯——一旦丢弃分支，就不会重新考虑。GoT 通过允许迭代细化来克服这个问题，在迭代细化中，可以重新审视、修改和改进以前的想法。这种迭代特性在复杂的推理任务中特别有用，因为初始想法可能需要调整。此外，通过合并部分解决方案减少冗余计算，GoT 的计算效率得到显著提高。

基于置信度的抽样

在基于置信度的抽样中，语言模型会生成多个候选解决方案或推理路径，然后根据模型对每个结果的置信度对它们进行优先排序或选择 [248]。这可以通过两种方式实现：(a) 选择：生成 N 个输出，并选择对数概率最高的输出（即模型最有信心的输出）。这本质上是按概率选出 N 个最佳——模型选择它认为最有可能正确的答案。(b) 引导探索：在探索推理树或多步解决方案时，使用模型的 token 概率来决定扩展哪个分支（首先探索置信度较高的分支）。换句话说，模型的概率估计充当引导搜索解决方案空间的启发式方法 [249]。与纯随机抽样相比，基于置信度的方法会使过程偏向于模型认为正确的方向，从而有可能减少对低可能性（通常是不正确的）路径所浪费的探索。

基于置信度的策略已被纳入推理时，例如，基于树的 LLM 生成搜索 [248] 会为每个可能的完成（叶子）分配一个置信度分数。算法会根据这些置信度分数对叶子进行抽样，以决定要扩展哪些路径。同样，一些推理方法使用模型对答案的估计可能性来决定何时停止或是否提出后续问题——本质上，如果模型的置信度较低，则可能会触发进一步的推理（一种自我反省的形式）。基于置信度的选择也用于集成设置：例如，LLM 可能会生成多个答案，然后第二个模型评估每个答案正确的置信度，选出置信度最高的答案。这在医学问答等任务中得到探索，其中 LLM 给出了答案和置信度分数，并且只有置信度高的答案才会被信任或返回 [250]。

对照验证器的搜索

LLM 中的这种验证方法 [251] 通过生成多个候选答案并使用自动验证系统选择最佳答案来提高答案质量。这种方法将重点从增加预训练计算转移到优化测试-时间计算，允许模型通过结构化推理步骤或迭代细化在推理过程中“思考更长时间”。该方法涉及两个主要步骤：

生成：模型（或“提议器”）产生多个答案或推理路径，通常使用高温采样或多样化解码等方法。

验证：验证器（例如奖励模型）根据预定义的标准（例如正确性、连贯性或与所需过程的一致性）评估这些候选者。验证者根据其评估重点进行分类：

结果奖励模型 (ORM)：仅判断最终答案（例如数学解决方案的正确性）。
2）过程奖励模型（PRM）：评估推理步骤（例如，思维链中的逻辑连贯性），提供细粒度的反馈以修剪无效路径。

有几种技术属于这种范式，可增强基于验证的优化。最佳-N 采样涉及生成多个答案并通过验证器（ORM/PRM）对其进行排序，选择得分最高的答案，使其成为提高答案正确性简单而有效的方法。带有 PRM 的波束搜索会跟踪得分最高的推理路径（波束）并尽早修剪低质量步骤，类似于思维树方法，在推理路径探索中平衡广度和深度。蒙特卡洛树搜索通过扩展有希望的推理分支、模拟推出和反向传播分数来平衡探索和利用，从而在搜索深度和验证置信度之间提供最佳权衡。多数投票（自洽性）从多个样本中汇总答案并选择最常见的答案，避免明确的验证器，这在多个响应的一致性表明正确性的环境中效果很好。

通过修正实现自我改进

这种方法是指 LLM 通过自我评估和迭代修正来增强其输出的能力。此过程使模型能够在推理过程中动态地改进其响应，而不是仅仅依赖于预训练的权重。一种值得注意的方法是自我改进 [252]，其中 LLM 生成初始响应，对其进行批评，然后根据其自我生成的反馈改进输出。这个迭代过程一直持续到模型获得令人满意的结果。这些技术已被证明可以提高各种任务的性能，包括数学推理和代码生成。此过程遵循以下关键步骤：
a) 初始生成：模型产生答案或推理路径。
b) 自我批评：模型审查自己的反应并识别错误、不一致或需要改进的领域。
c) 改进：模型根据批评调整其响应，并生成改进的版本。
d) 迭代：该过程重复进行，直到输出达到预定义的质量阈值或停止改进。

另一种方法称为自我打磨 [253]，其中模型逐步细化给定的问题，使其更易于理解和解决。通过重新表述或重构问题，模型可以增强其理解并提供更准确的解决方案。自我打磨，涉及逐步细化问题陈述，使其更易于理解和解决。该模型首先重新表述或重构问题，以获得更好的清晰度，然后将复杂的查询分解为更简单的子问题并细化模糊的输入以确保精确理解。通过在解决问题之前重构问题，该模型可以提高其理解能力并生成更准确的解决方案。

蒙特卡洛树搜索（MCTS）

MCTS [254] 基于蒙特卡洛模拟在博弈树搜索中的应用。它因在游戏中的成功而声名鹊起，值得注意的是，它于 2016 年通过搜索由政策和价值网络指导的可能动作为 AlphaGo [255] 提供支持。这以及在其他棋盘游戏和视频游戏中的应用，证明 MCTS 在不确定情况下进行序贯决策的强大功能。

MCTS 是一种随机搜索算法，通过执行许多随机模拟来构建决策树。它最出名的是寻找游戏状态中的好动作，但它可以应用于可模拟结果的任何问题。该算法迭代地：（a）根据启发式方法（如 UCT [256]，它选择具有高置信上限的节点）从根节点选择一条路径，（b）从该路径的末尾扩展一个新节点（以前未访问过的状态），（c）模拟从该新状态随机推出以获得结果（例如，游戏中的胜利或失败，或者某种奖励），以及（d）将结果反向传播到树上以更新节点的值并通知未来的选择。重复这些模拟数千次，将搜索集中在树上最有希望的分支上。本质上，MCTS 使用随机抽样来评估不同动作序列的潜力，逐渐使搜索偏向于具有更好平均结果的序列。在 LLM 推理中，可以将文本的生成视为决策过程，并用它来探索不同的延续。例如，在给定的问题（根）时，每个可能的下一个推理步骤或答案都是一个动作；模拟可能意味着让 LLM 继续得出最终答案（可能带有一些随机性），而奖励可能是答案是否正确。通过反复执行此操作，MCTS 可以确定哪条思维或答案链具有最高的经验成功率。MCTS 对于推理的吸引力在于，它可以通过智能采样而不是详尽采样来处理大型搜索空间，并且它自然地融入不确定性和探索。

最近，人们将 MCTS 与 LLM 结合起来，以解决复杂的推理和决策任务。一个例子是使用 MCTS 进行查询规划：蒙特卡罗思维搜索 [257]，其中 LLM 被引导提出一系列子问题来找到答案。Jay [257] 使用一种基于 MCTS 的算法，称为“蒙特卡罗推理机”，该算法将 LLM 视为一个环境：每个节点都是一个提示（状态），每条边都是一个动作（例如，要问的特定问题或要采取的步骤），并使用随机滚动来评估结果。这种方法使系统能够有效地探索可能的推理路径空间，并挑选出一条高回报的答案路径，在科学问答任务中的表现优于单纯的抽样。同样，MCTS 已应用于使用 LLM 的代码生成 [258]——该算法探索不同的代码路径（使用模型提出代码补全并对其进行测试）以找到正确的解决方案。另一项工作将多个 LLM 与 MCTS 集成在一起，将每个模型的输出视为一个分支，并使用奖励模型来模拟结果 [259]。早期结果表明，基于 MCTS 的推理可以解决单次通过或贪婪方法经常错过的问题，尽管需要更多的计算量 [74]。缺点是 MCTS 的速度可能比直接采样或波束搜索慢得多，最近的研究正在通过提高效率（例如，通过状态合并 [87]）来解决这一问题。一般来说，MCTS 将规划算法的优势带入 LLM 推理，并使 LLM 能够通过模拟的部署“向前看”，并做出更明智的推理选择，就像它在游戏中对 AI 所做的那样。

行动-思维-链推理

LLM 在推理任务方面表现出色，但在推理时严重依赖外部指导（例如验证者）或大量采样。现有的方法（如 CoT [8]）缺乏自我矫正和自适应探索的机制，限制了它们的自主性和泛化能力。Satori [260] 引入一种两阶段训练范式，其工作原理是首先调整模型的输出格式，然后通过自我改进来增强其推理能力。在第 1 阶段（格式调整）中，模型会接触到由多智体框架（包括生成器、评论家和奖励模型）生成的大量 10K 合成轨迹。这种监督微调有助于模型使用元动作tokens，生成特定推理格式的输出，尽管它可能仍然难以在这些示例之外进行泛化。在第 2 阶段（通过 RL 进行自我改进），该模型采用 PPO 和重启-和-探索策略 [260]，这允许它从中间步骤重新启动，无论这些步骤是否正确，以改进其推理过程。该模型根据基于规则的正确性、反思奖励、和基于偏好的结果奖励模型反馈的组合获得奖励，从而激励将更多的计算资源分配给更棘手的问题，并在复杂任务测试期间实现规模化推理。

人们越来越多地探索多智体框架和高级微调策略，以增强 LLM 中的推理能力。多智体 LLM 训练 (MALT) [261] 引入了一种结构化方法，其中生成、验证和改进步骤分布在专门的智体中，从而允许迭代自我校正和改进推理链。同样，优化偏好对齐，仍然是确保 LLM 安全性和实用性的关键挑战 [262]。双因子偏好优化 (BFPO) [263] 等方法，将 RLHF 目标重新定义为单一的监督学习任务，在保持稳健一致性的同时减少人为干预。除了基于文本的推理之外，多模态思维可视化 (MVoT) [264] 等多模态方法，通过结合视觉表征扩展 CoT 提示，显著提高空间推理任务中的表现。这些进步凸显对结构化多智体协作、安全意识优化和多模态推理日益增长的需求，以解决 LLM 推理中的基本限制 [265、266、267]。

预训练规模化与测试-时间规模化

预训练规模化和 TTS 是两种不同的 LLM 性能改进策略，在计算成本和效率方面各有优劣。预训练规模化涉及扩展模型参数或增加训练数据以增强能力，需要大量的前期计算投入 [3]。相比之下，TTS 优化推理-时间计算（例如迭代改进、基于搜索的解码或自适应采样），无需修改基础模型即可提高性能。

从性能与成本的角度来看，TTS 在简单到中等的任务（例如 MATH 基准）上实现与 14 倍大模型相当的结果，同时在计算密集型场景中将推理成本降低 4 倍 FLOPs [268]。但是，对于最困难的任务或推理计算约束较高的情况下，预训练仍然更具优势，因为更大的预训练模型本身就编码更深层次的推理能力。

在用例方面，TTS 适用于具有灵活推理预算的场景，或者当基础模型已经在任务中表现出合理的能力时。相反，预训练对于需要全新能力的任务（例如，在新领域进行推理）至关重要，而仅靠推理-时间优化可能还不够。

这两种方法之间存在明显的权衡。TTS 降低前期训练成本，使其对灵活的、随时可用的优化具有吸引力，但需要在推理-时进行动态计算分配。另一方面，预训练规模化会产生高昂的初始成本，但可以保证一致的性能而无需额外的运行时开销，使其成为大规模 API 部署或延迟敏感应用程序的理想选择。总体而言，TTS 和预训练规模化本质上是互补的。未来的 LLM 系统可能会采用混合方法，其中较小的基础模型使用基本知识进行预训练，而 TTS 通过自适应的按需计算动态增强响应。这种协同作用使更具成本效益和效率的大规模模型部署成为可能。

如图 LLM 推理总结：比较 LLM 中的推理策略，从直接提示（无需推理即可将输入映射到输出）演变为更结构化的方法。思维链 (CoT) 引入逐步推理，而自洽 (CoT-SC) 生成多个 CoT 路径并选择最常见的答案。多个 CoT 独立探索不同的推理路径。思维树 (ToT) 将推理构造为树，从而实现回溯和细化，而思维图 (GoT) 通过动态聚合和连接思想来概括这一点。这些解释了评分、回溯和自我细化等关键机制，这些机制对于优化推理效率至关重要。

请添加图片描述

为了评估 LLM 后训练阶段的成功，提出一套涵盖多个领域的多样化基准：推理任务、对齐、多语言性、一般理解以及对话和搜索任务。结构良好的评估框架可确保全面了解 LLM 在各种任务中的优势和局限性。这些基准在 LLM 后处理阶段起着至关重要的作用，在此阶段，模型经过微调、校准、对齐和优化，以提高响应准确性、稳健性和道德合规性。下表概述这些基准组下分类的关键数据集。

请添加图片描述

如图所示未来 LLM 后训练的方向包括：

请添加图片描述

自 2020 年以来，用于改进 LLM 的强化学习技术 [303, 57, 40] 关注度显著提升（图 a），这强调对交互式方法的需求，例如人机交互 [35, 304] 强化和可扩展性 [111, 82, 305]。

与此同时，由于自我奖励语言模型的出现，人们对奖励建模 [306, 166, 167]（图 b）的兴趣稳步上升，但该领域仍在努力应对奖励黑客攻击 [307, 308] 以及超越奖励黑客攻击 [310] 的稳健 [309]、故障感知奖励函数的设计。

解码和搜索 (图 c) 方法包括思维树 [84] 和蒙特卡洛 [311, 257] 策略，旨在通过迭代自我批评 [312, 304, 29] 增强模型推理能力，但这些技术也需要可靠的不确定性估计量，以防止过多的计算开销 [313, 111]。

安全性 [299, 314, 315]、鲁棒性 [316] 和可解释性 [317, 318, 319] 同样成为了中心关注点 (图 d)，推动偏见-觉察 [320, 321] 和不确定性-觉察 [322] RL 方法的发展，这些方法超越与人类不确定性 [323] 的相关性，可以维护用户信任并防止对抗性攻击。

另一个关键领域涉及个性化 [324, 325] 和适应性 [193]（图 e），其中为特定域定制 LLM 的努力必须与隐私风险 [326] 相平衡，尤其是涉及企业数据或敏感个人信息时。

与此同时，过程 [327, 328] 与结果奖励优化 [329]（图 f）仍然是一个悬而未决的问题：虽然基于过程的奖励有助于指导渐进式改进，但以结果为中心的指标更简单，但可能无法捕捉关键的中间决策步骤。