清华大学提出DRIVESCaPE：迈向可旋转多视角驾驶视频生成！

作者 | AI 驾驶员编辑 | 智驾实验室

点击下方卡片，关注“自动驾驶之心”公众号

本文只做学术分享，如有侵权，联系删文

近年来生成模型的进步为合成逼真的驾驶视频提供了有前景的解决方案，这对训练自动驾驶感知模型至关重要。

然而，现有的方法往往在集成3D信息时遇到困难，同时保持空间-时间一致性并从统一的模型中有效学习，这使得多视视频生成往往受限于每帧2HZ的3D框标注帧率，而作者的DriveScape却能克服这一限制，以稀缺条件下的精确运行能力，实现1024x576的高分辨率视频以10Hz的速度生成。

与其他方法相比，由于作者的双向调制 Transformer （BiMot）可以确保3D结构信息的精确对齐，保持空间-时间一致性。

在与nuScenes数据集的对比中，DriveScape在生成性能方面表现出色，实现了最先进的结果，FID得分为8.34，FVD得分为76.39。代码将在作者的项目主页上提供。

1 Introduction

自动驾驶已经引起了显著的关注，强调了需要精确的环境理解以确保安全的驾驶决策；Zheng等人（2024年））。从多视图图像生成的鸟瞰图（BEV）为诸如3D目标检测、分割、跟踪、深度估计和轨迹预测等任务提供了关键的结构表示；周和克哈内布尔（2022年）；Yang等人（2023年）；李等人（2023年）；廖等人（2024年））。然而，获取高质量的多视图视频数据极具挑战性，因为标签成本高，催生了生成与实际世界分布和3D标签对齐的实时同步视频数据的需求。最近生成的模型展示了合成数据的潜力，以增强视觉任务，而扩散模型则已经能够在驾驶视频中生成多样化和真实的效果，这对于构建自动驾驶系统至关重要。

扫描二维码关注公众号，回复： 17513531 查看本文章

对于作者来说，最相关的方法是利用3D条件生成多视图驾驶视频。首先，如Tab 1所示，大多数方法在低空间和时间分辨率下生成图像。由于它们不支持稀疏条件，因此无法从低频率输入生成高频率视频，这在自主驾驶中是一个重要能力，因为在标注成本远高于视频捕获的情况下。其次，大多数方法缺乏细粒度的布局控制能力，这对于在各种感知任务中进行灵活条件调整至关重要，最终降低生成成本，因为获得所有类型的布局可能非常昂贵。第三，其他方法；李等人；王等人在未考虑空间和时间维度中每个结构组件的协同和对齐的情况下，直接将多种控制信息拼接在一起，导致不一致和降低的结果。最后，由于多视图驾驶视频生成的复杂性，某些方法（李等人（2023年）；王等人（2023年））涉及到依赖复杂 Pipeline 依赖多阶段的方案。DrivingDiffusion（李等人（2023年））使用两个单独的模型和多个阶段来生成帧并连续扩展视频，需要后处理。这种复杂的级联方法效率低下，容易累积错误，可能缺乏鲁棒性，从而限制其实际应用。

自动驾驶之心+自动驾驶之薪+具身智能之心知识星球 | 双十一活动限时7折

为了应对这些挑战，作者提出DriveScape，一种多视图3D条件引导视频生成的解决方案。作者引入了一个简单而高效的训练和推理 Pipeline ，无需任何后处理，支持高空间和时间分辨率，实现稀疏条件控制以生成多视图、高分辨率和高帧率视频。作者还引入了一个双向条件对齐模块，以实现各种条件引导和稀疏条件控制多样化，在视频生成任务中实现解耦、稀疏和精确控制。通过在对齐潜在空间中集成多个条件并将范围从更广泛到更精致的层次集成，作者可以实现细粒度的布局控制，并显著提高生成的视频的真实感。此外，作者充分利用时间和空间信息，创建了一个统一的模型以实现一致的多视图视频生成。

总之，作者的关键贡献如下：

作者提出了一个有效而简洁的框架，用于生成多视图驾驶视频，不需要复杂的后处理。据作者所知，作者的模型是第一台实现高分辨率、高帧率、稀疏条件控制的多视图驾驶视频生成。
作者引入了一个双向条件对齐模块，以促进条件指导的多样化，并实现稀疏条件控制，以实现在视频生成任务中解耦、稀疏和精确控制动态前景和静态背景。作者的实验表明，作者的模型实现了独立可控和精确控制的动态前景和静态背景。
作者在nuScenes数据集上实现了最先进的视频合成性能，不仅在多视图图像和视频生成的质量方面优于其他感知应用，而且在各种感知应用中表现出色。

2 Related Works

Controllable generation

随着扩散模型的出现，在文本到视频生成领域取得了巨大进展采用了一种潜在扩散 Pipeline ，其中扩散去噪在图像潜在模态上进行，极大地加快了去噪过程。由于文本无法准确控制视频生成，所以后来的方法通过将图像块与文本作为提示信息一起输入到去噪网络进行控制（Zhang等人（2024））。作者希望生成的是高度逼真的街道视频。

这个场景非常复杂，有许多元素和元素之间的互动（如复杂的街道布局，移动的汽车等），所以作者需要更多的信息来进行精细控制，而不仅仅是图片和文本。在作者的方法中，作者将道路地图、3D边界框和BEV关键帧结合在一起来控制视频生成。

Multi-view video generation

多视图一致性和时间一致性是多视图视频生成的两个关键问题。(Tang等人，2023)提出的MVDiffusion方法中，为了保持多视图一致性，提出了一个对应关系的自注意力模块，以将多个视图的信息对齐。(Tseng等人，2023)利用双极几何对在不同的视图之间进行一致性进行正则化。(Gao等人，2023) MagicDrive利用相机姿态、边界框和道路地图作为先验，然后插入额外的交叉视图注意力模块来提高一致性。然而，这些方法只能生成多视图图像而不是视频。

Street view generation

图1：端到端多视图视频生成流水线。作者使用可学习的嵌入矢量来表示不同的摄像头，并将其视野分类为关键视图和邻接视图。作者的训练方案指导通过其相邻帧生成的关键视图视频。此外，作者引入了关键帧条件以及训练和推理方案，以确保同时的多视图一致性。此外，作者的模型不需要进行任何后处理过程，如DriveDiffusion (Li等，2023年)。它可以同时学习多视图和时间一致性，导致高保真度街道视图合成。

大多数街道视图生成模型依赖于2D布局，如BEV地图、2D边界框和语义分割。BEVGen (Swerdlov等人，2024年)通过包含所有语义信息在BEV中实现街道视图生成。BEVControl (Yang等人，2023年b)提出了一种两阶段方法，用于从BEV布局生成多视图城市场景图像，其中控制器生成前景和背景目标，协调器将它们合并在一起，同时保留不同视图之间的视觉一致性。此外，将3D信息投影到2D会失去3D几何信息。因此，直接将其扩展到视频生成可能会导致多个帧之间存在不一致。作者引入了3D边界框作为生成条件之一来引导生成。DriveDiffusion (Li等人，2023年a)提出了一种具有两个模型和2阶段后处理的流水线，用于分别生成帧并扩展视频。然而，这些方法依赖于多阶段 Pipeline ，而作者的方法使用有效且高效的端到端流水线。

3 方法

Overview

DriveScape的概述如图1所示。它运行在LDM (Rombach等人，2022年)的流水线上，根据场景标注BEV图、3D边界框、自车状态和每个视图的文本生成街道视图视频。在第三部分，作者介绍了统一的模型。在该部分中，作者实现了无需复杂后处理和任何后优化的高分辨率多视图视频生成。此外，在第三部分的第3.5节，作者将介绍双向条件对齐模块，它能够实现各种3D道路结构信息之间的有效对齐和协同作用。

DriveScape的概述如图1所示。它运行在LDM (Rombach等人，2022年)的流水线上，根据场景标注BEV图、3D边界框、自车状态和每个视图的文本生成街道视图视频。在第三部分，作者介绍了统一的模型。

在第三部分的第3.2节，作者实现了一个无需复杂后处理和任何后优化的统一模型，用于高分辨率多视图视频生成。

此外，在第三部分的第3.5节，作者介绍了双向条件对齐模块，它能够实现各种3D道路结构信息之间的有效对齐和协同作用。

Unified Model

作者的统一模型主要由包含空间和时间卷积以及关注（attention）的UNet组成。其中，代表视点数量，代表帧数（frame）。通过第一轮多视点帧，DriveScape可以预测接下来的帧，其中条件包括BEV图，3D 边界框，BEV关键帧和相邻的摄像头视频。BEV图和3D 边界框会通过透视投影和卷积块进行编码。

如图1所示，作者使用可学习的嵌入向量来表示不同的摄像头。与相同的canbus信息（速度和方向角），这些向量随后被输入到多层感知机（MLP）和 Sigmoid线性单元（SiLU）函数中。此过程使得嵌入向量可以与图像潜在进行交互，从而实现一个能够从不同视角预测视频的统一模型。

然而，嵌入摄像头信息无法实现空间和时间维度的一致性，因为它只能代表每个摄像头在整个数据集上的全局特性。一致性将通过模型结构和训练方案的设计得到保证。一方面，为实现时间一致性，作者充分利用时间信息，通过在潜在扩散UNet（Ronneberger等人（2015））层中引入时间关注以及控制对齐模块（将在Sec.双向调制 Transformer （BiMOT）中讨论）来达到时间一致性。另一方面，作者还引入了关键帧条件以及训练和推理方案，以确保多视图同时保持一致性。

Training Stage.

针对邻居帧的生成

DriveScape将相机视图分为关键视图和邻居视图，如图2所示。同一类型的视图之间的可见重叠最小。事实上，它们之间几乎不存在可辨别的重叠区域。因此，训练方案将通过邻居视图的相邻帧来引导关键视图视频的生成。在训练阶段，依次选择邻居视图和关键视图。而在邻居视图的训练过程中，会输入邻居摄像机（靠近关键视图）的的视频条件到网络中。DriveScape按照关键视图的顺序生成视频并存储，以供后续训练阶段使用。一旦准备好了关键视图，它们将与其图像潜在进行交叉注意，以确保邻居视图受其邻居的影响。

针对关键帧条件的生成

作者遇到了一个挑战，即在没有特定多视图约束输入的情况下生成了关键视图，这会导致性能下降。在大多数情况下，这是合理的，因为它们之间的重叠区域几乎为零。然而，在长期生成的情况下，这些视图是相关的。例如，当超过时，这些车辆首先由后视摄像头观察到，然后在一定时间后由前摄像头捕捉到。因此，提出了关键帧条件，即所有视图的共同开始帧与图像潜在相关。与时间注意力相结合，模型可以在开始阶段和所有邻居摄像机的先前帧之间学习所有视图的相关性。

针对稀疏条件的生成

作者的模型支持在2Hz至10Hz的各个帧率下进行训练，同时保持样本条件为2Hz。作者学习无条件帧的嵌入，并将这些嵌入整合到条件中，以匹配视频的帧率。将多种帧率训练方案与BiMOT模块相结合，提供了增强稀疏条件控制能力。

Drop conditions 为了提高训练过程的鲁棒性，关键视图以随机顺序进行训练。有50%的概率丢弃邻居摄像机视频，有20%的概率丢弃条件。作者的模型无需任何后处理过程。它能够同时学习多视图和时间一致性，从而提高整体质量和逼真度。

Inference Stage.

在推理阶段，作者的流水线可以高效地生成多视图视频，保持一致性。与训练阶段一样，该流水线包括两种模式：关键视图推理和邻域视图推理，如图2所示。由于关键视图摄像机位置被故意设置为不相邻，因此可以同时生成关键视图摄像机视频，无需考虑交叉视图条件控制。例如，前方有一个摄像机，后方有两个摄像机，一个在左侧，一个在右侧。这种战略位置确保了从多个视角进行全面覆盖，且不直接重叠。

由于这种配置，邻域视图摄像机（前方两个，后方一个）天然地从关键视图推理中获得交叉视图条件信息，因为他们是关键视图的左右直接邻域。这种设置允许邻域视图推理阶段与邻域摄像机视频条件保持一致，从而促进合理的交叉视图一致性。

利用这种布局，作者的推理模式在并行处理能力方面表现出色。只需要连续两次迭代就可以生成多视图视频，明显保持了交叉视图一致性。这种高效方法不仅加快了视频生产流程，而且确保生成的视频保持交叉视图的实时性。

双方向调制 Transformer

为了将不同模态的多条件集成到UNet模型中，并确保每个条件都被有效表达，作者提出了一个双向调制 Transformer （BiMoT）模块。该模块用于对来自不同模态的特征进行对齐，并将对齐后的特征注入网络，进而强化合并条件内的时间连续性，并将对齐条件注入网络。该模块的具体结构如图1所示，包括两个相反方向的交叉注意力层和一个时间自注意力层。

算法1 流量函数

条件到图像注意 为了标准特征表示以应对不同的条件，作者采用条件到图像的交叉注意力机制。作者使用像素级特征作为信号将各种条件特征进行融合。具体而言，如算法1所示，作者设置特征，特征，作者从嵌入条件数据中提取关键和值特征，并从图像潜在中获取图像 Query 向量。这一交叉注意力操作有助于将条件信息引入图像潜在空间，而这一潜在空间作为所有模态的自然统一表示，可以融合所有模态。

时间注意力 作者应用时间自注意力以确保合并后的特征在时间维度上有效传播。此外，稀疏条件信息被引入到图像潜在空间中，从而自然地将所有模态融合为一个统一表示。这允许潜在特征时间信息与稀疏条件时间信息交互，以控制生成的过程。

4 Experiments

在本节中，作者将基于几个指标评估作者的模型。首先，作者将详细描述作者的实验设置、数据集和评估标准。接下来，作者将分析作者的方法的定性结果。最后，作者将进行几个消融实验，以证明作者方法的有效性。

Experiment Details

数据集：训练数据来源于nuScenes（Caesar等（2020）），这是用于驾驶场景的BEV分割和3D目标检测的常见数据集。作者遵循官方设置，使用700个街道视图场景进行训练，150个进行验证。作者的方法考虑了8个物体类和8个道路类。

评估指标：为了全面评估作者的方法在多个条件下的真实感、连续性和精确控制的实际效果，作者选择了四个关键指标与现有多视图图像和视频生成方法进行比较。用于评估真实感的指标是广为人知的Frechet Inception Distance（FID Heusel等（2017）），用于衡量作者合成图像的质量。为了确保作者的视频展示一致和流畅的动作，作者使用Frechet Video Distance（FVD Unterthiner等（2018））作为时间一致性的衡量标准。作者还利用两种基于感知的方法估计可控性。CVT（Zhou和Krahenbuhl）（2022）用于BEV分割，BEVFusion（Liang等（2022））是一种3D目标检测方法。这两种评估方法都已先在nuScenes数据集上训练，为作者的性能实验提供可靠的基准。

图3：展示DriveScape多视图视频生成的示例；作者的模型在帧和视角上保持一致。具体来说，由作者的模型生成的车辆在提供的三维布局下准确位置，街道的描绘与提供的投影地图高度一致。特别是，在提供边界框超出可见区域的的情况下，作者的模型展示了遵循指定条件和生成剩余高保真物体的能力。

实现细节：作者基于Diffusers（von Platen等（2022））的官方代码基础和预训练的SVD（Blattmann等（2023b））视频生成模型实现作者的方法。如前所述，作者保持预训练模型中的空间组件不变，专注于训练时间方面以及与条件引导模块。对于训练和验证，作者将图像编成多序列的8帧视频，每帧视频都重新缩放到576×1024大小。所有模型均使用8位AdamW优化器（Dettmers等（2021））以1e-5的基本学习率进行训练，批量大小为8。在8个NVIDIA 80G-A100 GPU上执行训练过程，共耗时120小时。为了保留预训练模型的能力，作者对新增模块进行零初始化（Zhang等（2023）），并设置为预训练模型的基本学习率的10倍。此外，作者看到使用SVD中的时间增加分类器无关的指导尺寸导致迭代推理过程中逐渐失真。因此，在所有实验中，作者将指导尺寸固定为2.5。

实验结果

定性结果图示。作者在图3中展示了作者视频生成的质量和一致性。在检查后，明显可以看出作者的模型在帧和视点上达到了一致性。具体来说，由作者的模型生成的车辆能准确地放置在与提供的三维布置一致的位置，街道的划分也基本上与提供的投影地图一致。值得注意的是，即使提供的边界框超出可见区域，作者的模型也展示了遵循指定条件和生成其余高保真度的目标的能力。

稀疏条件控制如图4所示，作者的模型可以在稀疏条件下用高分辨率576 1024和10 fps生成一致的视频；

Conclusion

本文探讨了一种高效、高质量和感知友好的目标检测数据增强方法。首先，作者提出了一种基于条件生成（Conditional Generation）的数据增强策略，可以通过修改输入数据来提高模型的性能。然后，作者开发了一种稀疏条件控制方法，能够在保持较低计算复杂度的同时提高数据质量。通过在密集的城市环境中进行真实场景的拍摄和数据收集，以及使用稀疏条件控制方法对数据进行预处理，作者能进一步提高模型的性能。实验结果表明，作者的方法在保持高度一致性的同时增加了数据数量，并且生成的数据能显著提高模型性能，展示出其在生成高质量、感知友好的合成数据方面的有效性。

定量结果。作者在nuScenes验证集上报告了生成的图像质量的定量实验指标，如表2所示。具体而言，作者使用FID和FVD评估生成图像的质量，并与图像生成模型（BEVGen（Swerdlow等人，2024年），BEVControl（Yang等人，2023年），MagicDrive（Gao等人，2023年））进行了比较，专注于图像生成质量指标，即FID。作者的结果显著超过了这些模型。值得注意的是，与图像模型相比，视频生成模型的FID得分通常更高。例如，仅使用图像模型的Drive-WM显示了比完整模型更好的FID，强调了作者的方法的有效性。

然后，作者使用了FVD指标评估视频生成质量，并发现与最近的DriveDreamer（Wang等人，2023年）、DrivingDiffusion（Li等人，2023年）、Drive-WM（Wang等人，2023年）等相比有了显著的改进。在BEV分割指标方面，作者的方法在各方面都实现了更好的感知性能，除了与DrivingDiffusion相比略低的Road mIoU外。这是因为作者的方法专门针对后处理网络进行了训练以改进主要网络的输出。为了保持端到端系统的简单性，除进行图像缩放外，作者在感知评估中未进行任何后处理。

作者使用的感知模型基于单张图像推理，并未利用生成结果的时序一致性。由于作者在FVD指标上具有显著优势，作者的算法对于训练视频BEV感知模型具有巨大的潜力。

Ablation Studies

为了进一步精炼和评估作者提出的框架的有效性，作者进行了一系列的消融实验，结果如图3所示。首先，作者采用各种策略实现条件的引导。如果您移除整个BMoT模块，FID将从8.34增加到20.98，而FVD将从76.39增加到142.81，表明这个模块对于多条件编码至关重要。同样地，移除BMoT中的时间注意力层会导致显著的性能下降，FID和FVD分别增加到20.67和123.03，这说明BMoT中条件的时间建模非常重要。此外，在测试阶段，作者分别移除了关键帧条件和邻居条件，这两种条件都会导致性能下降，这表明这些条件对于不同视图之间的信息交换非常重要。

不同设置下的可视化差异。

在作者的视觉示例中，作者展示了模型在各种控制条件下 manipulation 单个场景的视频预测的能力。这些实验使用的控制条件源自其他场景相同视角的帧，这些帧是从其他场景中随机选择的。这种方法使作者能够进行控制条件的解耦实验，测试作者方法在不同和无关的场景下的鲁棒性。

如图6所示，该示例展现了不同3D布局控制下生成的结果。利用一个来自高速公路上的路段的单一参考帧，作者首先展示了正常行驶车辆的典型示例。然后，作者将场景过渡到 same 辆汽车穿越草地的情形。值得注意的是，即使在这种不寻常的场景中，作者的模型也可以保持时间的一致性。进一步的探索包括在场景中移除或添加大型车辆。结果，正如所看到的，也与指定条件一致，证明了作者的模型对生成内容的精确控制。

此外，如图7所示，作者探索了不同地图对视频生成过程的影响。生成的场景与给出地图区域形状的惊人一致。此外，布局特征的一致性不会因地图的变化而受到影响，证明了作者的模型具有有效性。这一系列的实验作为作者模型能力的强大证据，证实了其能够可靠地将指定的控制条件 rendering 为生成的视频内容中的精确、连贯的视觉叙事。

5 Conclusion and Future Works

结论。本文介绍了DriveScape作为第一个端到端的的多视角驾驶视频生成模型。作者开发了一个统一模型，无需复杂后处理或任何后细化程序，即可实现一致的多视角视频生成。这一端到端框架使得多视角条件引导的视频生成任务变得简洁有效。此外，作者还引入了一个双向调制Transformer模块，以方便视频生成任务中的多样化条件引导。作者的实验表明，作者已经成功地解耦并精确控制了动态前景和静态背景。此外，作者的方法在nuScenes数据集上实现了最先进的视频合成性能，不仅在多视角图像和视频的生成质量上表现出色，而且在各种感知应用中也表现出色。总的来说，作者的方法在生成质量和应用便捷性方面优于其他方法。

未来工作。作者的DriveScape可以通过更高的空间-时间分辨率进行训练，以实现更好的结果。同样类似于DrivingDiffusion（Li等人（2023a）），作者还可以训练一个后处理网络，进一步缩小生成数据和真实数据之间的分布差距。此外，设计适当的训练策略来减小多视角输入导致的内存开销至关重要。最后，这种方法将使得在训练阶段更容易纳入更多的多视角约束模块，这也是一种潜在的改进。

参考

[1].DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation.

『自动驾驶之心知识星球』欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业，近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】全平台矩阵