自动驾驶大语言模型(LLM4AD)：概念、基准、模拟和实车的实验

24年10月来自普渡大学和北美丰田汽车的论文“Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Simulation, and Real-Vehicle Experiment”。

随着大语言模型 (LLM) 的广泛使用和高度成功的开发，人们对将 LLM 应用于自动驾驶技术的兴趣和需求日益增长。在自然语言理解和推理能力的驱动下，LLM 有可能增强自动驾驶系统的各个方面，从感知和场景理解到语言交互和决策。本文介绍设计用于自动驾驶的 LLM (LLM4AD) 概念和方法。提出一个全面的基准来评估自动驾驶领域内 LLM 的指令遵循能力。此外，在模拟和真实世界车辆平台上进行一系列实验，全面评估 LLM4AD 系统的性能和潜力。

大语言模型 (LLM) 的最新发展增强了许多尖端技术，为广泛的应用领域带来了重大进步 [1]，[2]。它们的应用范围从经典的自然语言处理 (NLP) 任务（如文档修改和信息提取）到新涌现场景（如基于 LLM 的智体和用于评估的 LLM）[1]。在众多领域中，一个特定应用是采用 LLM 进行自动驾驶 (LLM4AD)。在这一领域，各种基于 LLM 的先进算法和技术正在不断增强自动驾驶技术的能力，利用 LLM 的潜力推动创新和效率。从高级决策过程到细致的低级控制，LLM 都可以为自动驾驶系统做出贡献。

在高级方面，LLM 可以积极参与调整驾驶模式或决策过程 [3]。想象一下坐在一辆自动驾驶汽车里的场景，需要做的就是抽象地表达感受，比如“我不想让我的朋友等我”。然后，LLM4AD 系统会解读情绪，并相应地调整车辆的控制策略，以适应当前的驾驶情绪或偏好。相比之下，非基于 LLM 的系统则无法从一些模糊的表达中准确理解或解读人类的意图 [4]。此外，基于 LLM 的系统由于其持续学习能力，在实现自动驾驶个性化方面具有巨大潜力。这种能力使其能够不断适应个人的喜好和愿望，根据不同用户改善驾驶体验。此外，LLM 还能开发出一种知识驱动的系统，能够像专家一样驾驶，并通过持续驾驶积累经验 [5]。

另一方面，在低级方面，LLM 也可以在调整和控制过程中发挥关键作用。LLM 已经展示了分析特定场景并将收集到的信息转换为数学表示以指导低级控制器的能力 [6]。此外，LLM 可以从控制器接收输入数据并提供性能更新，以帮助人类分析控制回路的有效性 [7]。它们可以提出改进建议或检测问题以提高整体性能。

LLM4AD 系统的涌现发展为所有相关研究人员提出了一个关键问题：为什么 LLM 在自动驾驶领域如此受欢迎？与没有集成 LLM 的系统相比，LLM4AD 系统有哪些优势？

在提出的框架中，LLM 不会直接影响感知或定位模块（作为车辆的“眼睛”）；相反，它们利用这些模块的输出作为参考来指导高级决策过程。从它们接收处理后的数据，LLM 可以增强明智的决策，从而显著提高自动驾驶汽车的性能。在下游，车辆的控制模块充当其“手”，执行从基于 LLM 的决策过程中获得的驾驶策略。本文使用的符号列在下表中。

请添加图片描述

LLM4AD 的整体框架如图所示。在该框架中，人类提供指令和评估，其中指令 I 和评估 F 以及历史记忆 H、系统消息 S 和上下文信息 C 作为 LLM 的输入。记忆模块，存储不同用户的人-车之间相应的历史交互 H。 LLM 接收到这些输入后进行推理，产生输出，包括生成的语言模型程序 (LMP) P 和推理思维 R。生成的 LMP 被发送到执行器在环境中执行，而推理思维帮助 LLM 生成更合理的驾驶策略。

请添加图片描述

记忆模块存储来自不同用户的资料，以增强所有用户的驾驶体验。每当人类用户使用 LLM4AD 系统时，系统都会记录与该用户相关的历史交互 H。随后，当前人类用户的历史数据将作为输入传输到 LLM。此特定历史交互 H 可作为当前用户偏好的参考点，从而指导系统改善用户体验。每次行程后，交互数据将在记忆模块中的相应资料中更新。

LLM 是框架的核心模块，它将接收所有输入，历史记忆（交互）H、系统消息 S、情况描述 C、人类指令 I 和人类评估 F，并生成文本输出（LMP P 和推理想法 R）。思维链提示 [9] 技术，是一种引导信号，确保与类人推理和实际驾驶考虑保持一致。思维链向 LLM 呈现了一系列结构化的推理示例，弥补了现有的知识空白。通过提供一系列逻辑和连贯的步骤，LLM 可以更有效地在复杂的驾驶场景中表现出色。

受“代码即策略 [10]”概念的启发，LLM 的主要输出之一是生成的由可执行代码组成的语言模型程序（LMP） P。这些代码用于影响环境中自我智体的驾驶行为，它们不仅能够推广到新的自然语言命令，还可以根据驾驶环境提供精确的数值，例如基于模糊语言描述（例如“快点”、“左转”）的速度。

通过采用思维链提示 [9]，LLM 不仅可以生成程序代码，还可以逐步解释用于得出该解决方案的思维过程。这些思维链代表了 LLM 做出每个决策背后的推理，例如“由于命令是‘加快’，我将提高目标速度”或“要左转，我需要根据当前速度调整转向角度”。输出思维 R 伴随着生成的程序 P，提供了关于 LLM 如何在驾驶情况描述的背景下解释自然语言命令以产生精确的控制值（如速度或转向角度）的见解。这种输出思维提高了 LLM4AD 系统决策过程的透明度和可解释性。

执行器充当 LLM 文本输出与当前自动驾驶策略之间的桥梁。它从 LLM 获取生成的语言模型程序（LMP） P，并在相应的环境中执行它。这允许代码与自车的当前状态进行交互，并使生成的程序能够在真实或模拟环境中部署其预期的驾驶行为。
LaMPilot-Bench，是一个用于评估自动驾驶中基于 LLM 智体指令遵循能力的基准测试。LaMPilot-Bench 由三个关键组件组成：模拟器、数据集和评估器。

LaMPilot-Bench 模拟器基于 HighwayEnv [11] 构建，HighwayEnv 是一个广泛用于自动驾驶研究和战术决策的平台。HighwayEnv 提供各种驾驶模型，并模拟真实的多车交互。本文扩展 HighwayEnv，使其具有适合基于 LLM 智体的接口，并实现了自定义交叉路口，以多样化驾驶场景。

LaMPilot 数据集包含 4,900 个半-人工-注释的交通场景，其中 500 个样本子集被拆分为测试集。每个数据样本包括：
• 指令 I：高级任务描述。
• 初始状态：用于初始化模拟器。
• 目标状态标准：与指令 I 一致。

数据集涵盖各种驾驶场景，如表所示的统计分析。对于每种驾驶场景，LaMPilot 都包含各种情况。以转弯场景为例，多样性体现在几个变量中，例如本车的初始位置和状态、具体任务（左转/右转或直行）、其他车辆的数量及其位置和状态。其他车辆的驾驶模型参数是随机初始化的，每个场景都分配一个随机种子。数据集还包含各种指令，反映了现实的车内人为命令，按操作类型（例如，路线、变道、超车）和场景类型（高速公路和交叉路口）分类。如图显示指令中前四个字的分布。

请添加图片描述

LaMPilot-Bench 评估器结合了各种指标来评估智体驾驶策略的安全性和效率。碰撞时间 (TTC) 用于衡量车辆保持安全距离和避免碰撞的能力。

当智体在保持安全性（即避免碰撞）和效率（即在规定时间内完成）的同时实现指令中指定的目标时，任务即被视为成功完成。例如，当车辆在目标车道上并且其航向在指定阈值内与车道方向一致时，车道变换任务即完成。

模拟是开发和评估自动驾驶系统的关键工具，它使研究人员能够安全高效地探索各种驾驶场景并收集训练数据。在这项工作中，用 CARLA 模拟器 [24] 来开发和评估框架。CARLA 提供了一个非常适合自动驾驶研究的逼真且可定制的环境。

实验利用了 CARLA 排行榜 1.0 [25] 中的官方路线，该路线由 76 条路线（50 条训练路线和 26 条测试路线）组成，总长超过 170 公里，横跨六个城镇。排行榜还包括一组自主智体必须导航的预定义场景，涵盖十种不同类型的具有挑战性的交通状况，例如控制丢失和交通协商。
Talk2Drive（如图所示），是一种利用 LLM 增强命令解释并实现自动驾驶汽车个性化决策的方法。它集成基于云的 LLM，实现个性化理解并将人类命令转换为具有实时车辆动态输入的可执行控制序列。

请添加图片描述

人类的口头指令由基于云的 LLM 处理，这些 LLM 会从天气、交通状况和当地交通规则信息中合成上下文数据 C。LLM 会生成可执行代码 P，并传送至车辆的电子控制单元 (ECU)，ECU 将使用 CAN 总线访问线控系统，该系统会操作车辆控制装置的启动，确保人类的意图转化为安全且个性化的驾驶行为。记忆模块会存档每个命令 I、其结果代码 P 以及后续的用户反馈 F，确保个性化驾驶体验不断改进。

Talk2Drive 系统的流程图如图所示：语音识别模块检测到关键字“command”后，输入（I、C、S、H）被发送到LLM。然后，LLM生成相应的语言模型程序（LMP）供ECU执行。如果语音识别模块检测到关键字“evaluate”，系统将收到人工反馈（F），并且F及其对应的 I 和 P 都会在内存模块中更新。

请添加图片描述

该工作重点之一是集成 LLM，通过随着时间的推移学习和适应个人驾驶员的习惯、偏好和沟通风格，实现自动驾驶汽车更高水平的个性化。在探索中，LLM 用于分析驾驶员过去的命令、反馈和交互，使系统能够构建个性化档案，为其决策过程提供信息。

LLM 的一个关键优势是它们能够处理和理解自然语言命令，从而实现人与自动驾驶汽车之间更直观的交互。通过利用这种能力，LLM 可以理解驾驶员命令背后的情绪或感受，使基于 LLM 的系统能够调整其行为和决策，以更好地适应驾驶员的偏好和情绪状态，从而提供更加个性化的驾驶体验。例如，如果驾驶员在语音命令中表达了“我正在去医院的路上”这样的紧迫感，LLM 可以解读这种情绪，并通过优先考虑更快的速度和更激进的驾驶风格来相应地调整驾驶风格。

此外，LLM 的集成使人与汽车之间的通信更加自然，并能感知环境。人类可以使用日常自然语言表达需求或疑问，而无需依赖预定义的命令或特定关键词。然后，LLM 可以解读他们话语背后的意图，并根据对话背景提供相关信息或采取适当的行动。例如，即使驾驶员随口说“今天天气真好，不是吗？”，LLM 也可以解读这种情绪，并假设驾驶员可能更喜欢更轻松的驾驶体验。因此，LLM 将通过保持平稳、温和的驾驶风格来调整车辆的驾驶行为，以符合这种偏好。

自动驾驶大语言模型(LLM4AD)：概念、基准、模拟和 实车的实验

猜你喜欢

自动驾驶大语言模型(LLM4AD)：概念、基准、模拟和实车的实验