通过 RL 微调改善自动驾驶的智体行为

24年9月来自UCLA和谷歌Waymo的论文“使用强化学习微调改进自动驾驶的智体行为”。

自动驾驶汽车研究的一个主要挑战是建模智体行为，它具有关键的应用，包括为非车载评估构建逼真可靠的模拟，以及为车内规划预测交通智体运动。虽然监督学习已在各个领域的智体建模中取得成功，但这些模型在测试时部署时可能会受到分布变化的影响。这项工作用强化学习（RL）对行为模型进行闭环微调来提高智体行为的可靠性。在 Waymo Open Sim Agents （WOSAC）挑战赛中，该方法展示了改进的整体性能，以及改进的目标指标，例如碰撞率。此外，提出一种策略评估基准，直接评估模拟智体衡量自动驾驶汽车规划器质量的能力，并证明本文方法在这个新基准上的有效性。

基于 Transformer 的模型已经应用于各个领域，如文本生成 [4]、图像生成 [26]、机器人 [43]、药物研发 [18]、疾病诊断 [42] 和通用医疗 AI [22]。许多基于 Transformer 的大模型都以“预训练-然后-微调”的方式进行训练，其中监督微调 [40] 或带有人工反馈的强化学习 [25] 有望使模型行为与人类偏好保持一致。在自动驾驶领域，类似的基于 Transformer 的架构已经应用于各种任务，包括感知 [19]、运动预测 [23]、自动驾驶策略 [10] 和模拟 [31,38,39]。

对交通参与者的行为进行建模是许多自动驾驶系统中的一项关键任务，特别是对于构建真实的模拟来测试 AD 规划器而言。大多数现有的模拟器 [6,12,41] 依赖于手工制作的交通和地图生成规则。然而，地图结构、交通流、交通参与者与其他元素之间交互的数据分布，并不能真实地代表现实世界。现代数据驱动的模拟器 [9,13,14,33] 通过重放自动驾驶汽车记录真实场景中的交通参与者行为（日志重放）来解决这个问题。然而，日志重放的缺点是，当规划器行为与原始记录的行为不同时，重新模拟可能会变得不切实际。例如，如果 AD 规划器比人类驾驶员更谨慎，并且更早刹车，后面的车辆可能会与其相撞，从而导致误报碰撞。

在 Waymo Open Sim Agent Challenge (WOSAC) [20] ，许多现有的提交方法都应用了边际运动预测模型 [2,7,29]，这些模型通常采用初始状态并在单次推理（一次性）中预测所有未来步骤中交通参与者的位置。这些边际模型没有明确地模拟预测范围内智体之间的交互。自回归 (AR) 模型自然适合驾驶行为建模，尤其是在闭环模拟的背景下 [11,28,31,38]。AR 解码 [28] 允许在解码过程的每个步骤中通过自注意机制对智体之间的交互进行建模。然而，AR 行为预测模型的闭环训练，仍然是一个研究不足的领域。所以通过闭环微调改进预训练的 AR 模型，并评估其在 WOSAC 基准上的性能。

如图所示，可以通过简单的基于策略的强化学习方法和自回归展开来微调预训练模型。本文提出一个简单的奖励函数，它不仅使模型能够满足人类对智体行为的偏好，而且还能保持与人类的相似性。

请添加图片描述

如算法 1 所示，本文方法分为两个阶段。在预训练阶段，从数据中重建真实动作，并使用最大似然目标来匹配数据集中观察到的行为的联合动作分布：

请添加图片描述

学习过程的第二阶段使用强化学习 (RL) 对模型进行微调。将问题形式化为多智体 MDP，以完成行为建模任务。

请添加图片描述

使用 RL 对预训练的自回归运动预测器进行微调。每个智体在每个步骤的奖励函数定义为：

请添加图片描述

在微调过程中，运行模型进行 Tpred 次预测步骤。编码器首先将场景上下文 c 编码为共享场景嵌入，然后再进行自回归解码。在每个预测步骤 t，固定场景嵌入和 t × N 个tokens被输入到自回归解码器并采样 N 个新动作。具体来说，在预测步骤 t = 1 时，通过 MLP 投影智体的当前位置并获取智体嵌入：idi = MLP(Pos0, i), i = 1,…,N。智体和场景嵌入作为解码器的输入tokens。经过几层自注意和交叉注意之后，从解码器输出所构建的分类分布中采样 N 个动作。

这些采样动作的嵌入将与相应的 idi 一起添加并与前面步骤中的tokens连接起来，以形成下一步的输入tokens。与语言模型的解码过程相比，在每个预测步骤同时输出 N 个 tokens，而不是一个 token。模型以自回归方式在 Tpred 个时间步中展开操作。收集展开的轨迹后，将操作转换为二维位置序列，以便按照公式（2）计算奖励。步骤 t 和每个智体 i 的回报（即“待完成奖励”）为：

请添加图片描述

归一化奖励如下：

请添加图片描述

然后，应用 REINFORCE [35] 方法，通过微分以下替代目标来计算用于优化模型的策略梯度：

请添加图片描述

如图所示：左图是使用行为克隆 (BC) 和强化学习 (RL) 相结合的方法从头开始训练智体，如果没有对大型数据集进行预训练，智体必须同时探索环境并从头开始开发其功能；右图是智体经历两阶段训练方案，智体通过将其动作 (绿色) 与预训练中的真实数据 (灰色) 对齐来获得一套基础技能；通过 RL 进行微调可在自回归部署中改进智体行为。
请添加图片描述

常见的“模拟”指标（如 ADE）的一个关键限制是，该指标与评估 AD 规划器性能的实际目标之间联系较弱，该指标将模型部署与真值轨迹进行比较。低 ADE 指标并不能保证良好的驾驶行为。例如，日志重放具有完美的零 ADE，但对于模拟智体来说，这是一个糟糕的选择，因为它是非反应性的。为了创建一个与衡量 AD 规划器性能直接相关的评估，提出一种新的模拟智体策略评估框架，该框架受到 RL 策略评估文献 [32] 的启发。

策略评估框架涉及对预定的 AD 规划器策略集合的性能进行排名和评分。这类似于现实世界的用例，其中必须从候选软件版本集合中决定部署哪个规划器。更好的模拟智体模型将给出更准确的信号，表明在现实世界中部署哪种策略最好。如图所示，首先准备一批具有已知性能排名的 AD 规划器策略。然后，当场景中的交通智体由模拟智体模型控制时，评估这些 AD 规划器的性能。因此，将为特定的模拟智体生成这些 AD 规划器的估计性能。然后，测量这些规划器的估计性能与真值性能之间的差异。这种差异成为模拟智体模型评估规划器性能的能力的衡量标准。策略评估涵盖了模拟智体模型在自动驾驶汽车部署中的两个重要用例：1）评估，希望估计智体在模拟中的表现，以及 2）选择，确定不同部署候选之间的排名或顺序。

请添加图片描述

策略选择。为了进行评估，必须有一组固定的策略来进行排名或评估。为了生成具有良好和不良性能的各种规划策略，用基于随机射击搜索的策略系列，由采样的轨迹数 (J) 和深度 (D) 参数化。用日志回放智体对每项策略进行评估来计算“基本事实”分数。请注意，基本事实的选择是一项重要的设计决策。任何模拟智体都可以作为基本事实，但需要选择一个对所有模型最公平的智体，并且日志回放是最中立的。

随机射击策略，以模型预测控制 (MPC) 方式运行：在每个时间步骤中，随机射击策略从固定的 J 条轨迹库中采样，这些轨迹是通过在 D 步中保持单个方向盘角度和加速度生成的。请注意，此操作规范与 MotionLM 架构的操作空间不同。这种简单的策略比随机选择的操作效果好得多。然后通过奖励函数对轨迹进行评分，并执行得分最高轨迹的第一步。此过程在整个推出过程中重复进行。用 16 种不同的 J 设置，范围从 9 到 81，并使用 4 个深度值 D ∈ [6, 8, 12, 16]。然后用这两组的乘积，总共评估 64 种不同的策略。

奖励函数。用于从一组候选轨迹中选择动作的奖励函数，是碰撞以及越野和路线-跟踪违规的线性组合。用来自等式（2）的修改后奖励函数，将来自真值的 L2 范数（在执行时规划器无法获得）替换为遵循合理路径的附加项。改为以航点的形式为规划器提供高级路线，并使用 −10C − O − R + 10^−4 * P 的加权和，其中 C ∈ {0,1} 表示碰撞指示器，当 AV 与另一个物体发生碰撞时为 1，O ∈ {0, 1} 表示道路外指示器，当 AV 太靠近道路边缘时为 1，R ∈ {0, 1} 表示偏离路线指示器，当 AV 与 GT 轨迹的横向距离超过阈值时为 1，P 是 AV 在两个时间步长之间位移投影到记录轨迹上的投影，用于测量路线-跟踪行为。用 Waymax [9] 的效用函数来计算这些指标。

通过 RL 微调改善自动驾驶的智体行为

猜你喜欢