从DriveDreamer v1&v2到4D，聊聊世界模型在驾驶场景重建中为何越来越重要？

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享极佳科技世界模型的系列工作！从DriveDreamer v1&v2到4D。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

编辑 | 自动驾驶之心

闭环仿真技术是推动端到端自动驾驶系统发展的关键。目前的传感器仿真方法，如NeRF与3DGS，主要依赖于训练数据分布，若训练数据不足，则这些方法在复杂驾驶操作（例如变道、加速或减速）的重建效果不佳。近来，自动驾驶世界模型（World Model）证明其可以生成丰富驾驶数据。

近日，极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D，是首个利用世界模型增强4D驾驶场景重建效果的工作。DriveDreamer4D可以为驾驶场景提供丰富多样的视角（包括变道、加速和减速等）数据，以增加动态驾驶场景下的闭环仿真能力。在user study实验中获得了超过80%的偏好投票，为走向空间智能和4D世界模型迈出了坚实的一步。

DriveDreamer4D利用世界模型作为数据引擎，基于真实世界的驾驶数据合成新轨迹视频（例如变道场景）。如下图所示，DriveDreamer4D不仅可以提升多种重建算法（PVG,Gaussian,Deformable-GS）的图像渲染质量，还可以提升驾驶前景（车辆）和背景（车道线）的时空一致性。

DriveDreamer4D 的总体结构框图如下所示，轨迹生成模块（NTGM）用于调整原始轨迹动作，如转向角度和速度，以生成新的轨迹。这些新轨迹为提取结构化信息（如车辆3D框和背景车道线细节）提供了全新的视角。随后，基于世界模型的视频生成能力，并利用更新轨迹后得到的结构化信息作为控制条件，可以合成新轨迹的视频。最后，原始轨迹视频与新轨迹视频相结合，进行4DGS模型的优化。

在实验中，如下第一列视频所示，可以看出多种传统算法（PVG,Gaussian,Deformable-GS）在变道场景下的车道线、天空、车辆都会模糊，甚至出现“鬼影”现象。而DriveDreamer4D可以提升多种重建算法在复杂变道场景下的视频渲染效果，不仅消除了“鬼影”，而且提升了交通元素的渲染质量，车辆和车道线都更加清晰。

除了变道，在车辆变速场景下，传统算法（PVG,Gaussian,Deformable-GS）的表现能力也受到限制，如下第一列视频所示，这些算法在自车加速时，前方的车辆都出现了“拖影”现象。而经过DriveDreamer4D提升后，渲染的车辆的时空一致性更高。

在定量实验中，本文证明了DriveDreamer4D不仅可以提升多种重建算法(PVG,Gaussian,Deformable-GS)的图像渲染质量(如表2)，还可以提升车辆和车道线渲染的时空一致性（如表1）。此外，本文还通过user study（表3）证明用户更加偏好DriveDreamer4D的渲染效果，获得了超过80%的投票率。

表1 DriveDreamer4D提升了车辆和车道线重建渲染的时空一致性

表2 DriveDreamer4D提升了图像重建渲染质量

表3 User study证明用户更加偏好DriveDreamer4D的渲染效果

本项DriveDreamer4D工作是极佳科技研究团队之前DriveDreamer和DriveDreamer-2工作的延续。DriveDreamer是首个面向真实驾驶场景的世界模型，可以根据不同的控制条件生成自动驾驶周视视频，有效提升了BEV感知的性能；DriveDreamer-2在此基础上，引入大语言模型，可以生成用户自定义的驾驶数据，进一步提升了长尾和corner case场景下的数据生成能力。针对端到端自动驾驶和闭环仿真对于场景重建的迫切需求，DriveDreamer4D利用DriveDreamer系列工作的能力，用以生成新轨迹视频（例如变道、加减速），从而大幅提升了多种4DGS算法的重建效果。

本篇成果的牵头单位为极佳科技，致力于将视频生成提升到4D世界模型，赋予AI大模型对于4D空间的理解、生成、常识和推理的能力，实现4D空间中的交互和行动，走向通用空间智能，是一家成长迅猛的空间智能公司。通用空间智能对于影视游戏、元宇宙等虚拟空间的内容创作，以及自动驾驶、具身智能等物理空间的数据生成和认知推理能力，都有巨大的价值和作用。极佳科技是国内最早开始探索和布局世界模型和空间智能方向的公司，在物理空间和虚拟空间两方面都已取得显著的技术和商业进展，获得了行业广泛的认可。

论文链接：https://arxiv.org/abs/2410.13571
项目主页：https://drivedreamer4d.github.io/
代码地址：https://github.com/GigaAI-research/DriveDreamer4D

『自动驾驶之心知识星球』欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业，近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】全平台矩阵

猜你喜欢

目录

热门文章