机器人技术中的 3D 高斯splatting：综述

企业开发 2024-11-01 16:04:31 阅读次数: 0

24年10月来自上海交大的论文“3D Gaussian Splatting in Robotics: A Survey”。

环境的密集 3D 表示一直是机器人领域的长期目标。虽然之前的神经辐射场 (NeRF) 表示因其基于坐标的隐式模型而广为人知，但最近出现的 3D 高斯splatting (3DGS) 在其显式辐射场表示中展示了巨大的潜力。通过利用 3D 高斯基元进行显式场景表示并实现可微分的渲染，3DGS 在实时渲染和照片级真实感性能方面显示出优于其他辐射场的显著优势，这对机器人应用大有裨益。综述全面介绍 3DGS 在机器人领域的应用。将相关工作的讨论分为两大类：3DGS 的应用和 3DGS 技术的进步。在应用部分，从场景理解和交互的角度探讨 3DGS 如何应用于各种机器人任务。 3DGS 的进步部分重点介绍 3DGS 自身特性在适应性和效率方面的改进，旨在提高其在机器人技术中的性能。然后，总结机器人技术中最常用的数据集和评估指标。最后，确定当前 3DGS 方法的挑战和局限性，并讨论了 3DGS 在机器人技术中的未来发展。

如图所示本文架构：

请添加图片描述

3DGS 的输入是多视图图像，这些图像通过运动结构 (SfM) [11] 生成稀疏点云。然后利用该点云创建初始 3D 高斯。然后，通过比较真值图像和渲染图像来更新 3D 高斯基元的属性，从而优化 3D 高斯表示。在这里，渲染结果由 splatting 过程生成，同时设计了可微分的基于 tile 光栅化器以加速。此外，3DGS 采用自适应密度控制来管理用于场景表示的 3D 高斯数量。如图显示 3DGS 的前向过程：

请添加图片描述

3DGS 引入了一种使用 3D 高斯基元的显式辐射场表示，它提供了一种紧凑、高效且灵活的 3D 场景建模方法。3D 高斯表示的使用，结合 splatting 过程、可微分优化和自适应密度控制，使 3DGS 成为实时高质量渲染复杂 3D 环境的强大工具。

场景理解

场景重建

如图是GS用于场景重建的方法时间表：

请添加图片描述

下表是GS用于静态重建的方法：

请添加图片描述

由于现实场景复杂多变，静态重建需要能够精确建模环境中的外观和几何信息。对于静态场景表示，混合高斯比单一高斯能够更精确地建模整个场景。这是因为混合高斯可以根据场景中不同区域的几何结构采用不同的建模方法，而单一高斯对整个场景采用统一的建模方法。此外，由于神经场高斯加入了 MLP 网络，更有利于建模光照信息，因此在光照建模方面比单一高斯和混合高斯更具优势。

根据以下三个标准，对现有的基于 3DGS 的动态重建方法进行分类：（i）输入传感器的类型，即单目、多摄像头和激光雷达，（ii）分离场景中静态和动态目标的方法，即无先验知识、2D先验知识和3D先验知识，（iii）动态建模方法，即时变、形变和4D高斯，如表所示。

请添加图片描述

GS对环境动态建模方法可分为时变建模、基于变形的建模和四维高斯建模，如图所示：

请添加图片描述

目前的3D GS动态建模方法已经展示了其重建动态场景的能力。在小规模场景中，这些方法可以统一重建动态和静态组件。然而，当处理更大规模的自动驾驶场景时，统一重建的计算负担变得越来越高。为了解决这个问题，需要额外的先验信息来区分动态和静态区域，然后分别重建。这些方法的局限性在于它们依赖于额外的先验信息，比如3D边框，而这些信息并不容易获得。因此，动态重建的未来发展除了提高动态建模的精度之外，还在于利用3DGS的几何建模在最少先验知识的情况下进行更大规模的动态重建。

场景分割和编辑

场景分割的GS方法时间表如图所示：

请添加图片描述

其根据如下两个标准对现有的 3DGS 分割方法进行分类：（i）3DGS 语义表示的建模方法，（ii）在多个 2D 图像输入中保持一致语义标签的方法。

请添加图片描述

具体来说，语义表示建模方法可以分为三类：语义标签、特征嵌入和 MLP。前两种方法将语义标签和特征嵌入作为附加属性纳入三维高斯基元，而第三种方法采用 MLP 网络进行语义建模。

与其他场景表示相比，3DGS 实现了更快、更准确的 3D 语义分割 3D 语义建模。这一改进可以归因于 3DGS 的高斯辐射场表示，它能够实现详细的场景建模，以及 3DGS 的高效渲染能力，这可以实现更快的优化。此外，通过利用高斯的显式结构和基于 3DGS 的语义分割结果，可以直接从场景表示中编辑和操作语义目标。此功能有助于将 3DGS 应用于各种下游机器人任务，例如操作和自主导航，其中理解和与环境中的语义实体交互至关重要。

场景编辑的方法分为两种：目标编辑和场景分割编辑。如图所示：

请添加图片描述

目标编辑方法包括目标插入和移除[79]，[81]，[82]，[83]以及外观和纹理编辑[84]。

SLAM

SLAM的工作时间表如图所示：

请添加图片描述

基于GS的SLAM如图所示：

请添加图片描述

现有的基于3DGS视觉SLAM的精度高度，依赖于精确的深度信息。由于缺乏准确的深度信息，RGB SLAM方法经常在3DGS几何重建中出现错误。虽然深度估计技术可以为RGB SLAM提供深度信息，但其有限的精度导致SLAM性能下降。此外，目前基于3DGS的视觉SLAM系统，大多在室内环境中进行测试和评估，因为深度测量在室外场景中不可靠。因此，视觉SLAM尚未解决的关键问题是，在深度信息不准确的情况下提高几何重建精度，从而实现各种环境下的高精度SLAM。

根据用于 3DGS 几何重建的主要传感器模态，将多传感器融合 SLAM 方法分为基于激光雷达和基于图像深度估计的方法。

由于原始的3DGS表示缺乏语义信息，在基于3DGS的语义SLAM中开发了两种方法来结合语义：基于颜色和基于特征。

场景交互

操纵

根据任务是否需要考虑动态环境变化，操纵任务可分为单步和多步。如图所示：

请添加图片描述

在单步操作中，抓取任务通过单一、连续的动作完成，因此环境在此过程中被视为静态的。GaussianGrasper [138] 通过高效的特征提取重建三维高斯特征场，以支持语言引导的操作任务，并使用渲染法线滤除不可行的抓取姿势。

对于多步操纵，任务是通过一系列动作来完成的，其中每个阶段中目标的移动都会导致环境的动态变化。Splat-MOVER [139] 并未对动态变化进行建模，而是采用了场景编辑模块，使用 3D 语义掩码和填充来可视化机器人与环境交互产生的目标运动。此外，这项工作还引入了 GSplat 表示，该表示将语言语义和掌握affordance的潜代码蒸馏到 3D 场景中，以便进行场景理解。