论文笔记（五十三）DeformGS: Scene Flow in Highly Deformable Scenes for Deformable Object Manipulation

DeformGS: Scene Flow in Highly Deformable Scenes for Deformable Object Manipulation

文章概括
摘要
1 引言
2 相关工作
3 问题陈述
4 初步
- 4.1 高斯抛洒
- 4.2 动态场景的形变场
5 方法
6 实验
7 结论

文章概括

引用：

@inproceedings{
    
    duisterhof2024deformgs,
  title={
    
    Deformgs: Scene flow in highly deformable scenes for deformable object manipulation},
  author={
    
    Duisterhof, BP and Mandi, Z and Yao, Y and Liu, JW and Seidenschwarz, J and Shou, MZ and Ramanan, D and Song, S and Birchfield, S and Wen, B and others},
  booktitle={
    
    The 16th International Workshop on the Algorithmic Foundations of Robotics (WAFR)},
  year={
    
    2024}
}

Duisterhof, B.P., Mandi, Z., Yao, Y., Liu, J.W., Seidenschwarz, J., Shou, M.Z., Ramanan, D., Song, S., Birchfield, S., Wen, B. and Ichnowski, J., 2024. Deformgs: Scene flow in highly deformable scenes for deformable object manipulation. In The 16th International Workshop on the Algorithmic Foundations of Robotics (WAFR).

原文：https://algorithmic-robotics.org/papers/75_DeformGS_Scene_Flow_in_High.pdf
代码、数据和视频：

系列文章：
请在 $《$ 文章 $》$ 专栏中查找

摘要

教授机器人折叠、悬挂或重新定位诸如布料之类的可变形物体将解锁多种自动化应用。尽管在刚性物体操控领域取得了显著进展，但操控可变形物体带来了独特的挑战，包括频繁的遮挡、无限维状态空间和复杂的动力学。正如物体姿态估计和跟踪对于刚性操控的机器人有所帮助一样，高度可变形物体的密集3D跟踪（场景流）将在机器人技术中启用新应用，并有助于现有方法，如模仿学习或通过实际到仿真的转换创建数字孪生。我们提出了一种名为 DeformGS 的方法，用于恢复高度可变形场景的场景流，采用多个摄像机对动态场景进行同时视频捕捉。DeformGS 建立在最近在高斯涂抹技术上的进展之上，这种方法学习大量高斯的属性，用于最先进和快速的新视角合成。DeformGS 学习一个变形函数，将一组具有典型属性的高斯投影到世界空间。变形函数使用神经体素编码和多层感知器（MLP）来推断高斯位置、旋转和阴影标量。我们强加基于动量守恒和等距性的物理启发式正则化项，这导致轨迹误差更小。我们还利用现有的基础模型 SAM 和 XMEM 产生噪声掩模，并学习每个高斯的掩模以获得更好的物理启发式正则化。DeformGS 在具有阴影和遮挡的高度可变形场景中实现了高质量的 3D 跟踪。在实验中，DeformGS 的 3D 跟踪性能平均比现有最好的技术提高了 55.8%。在具有足够纹理的条件下，DeformGS 在 1.5 × 1.5 米面积的布上实现了 3.3 毫米的中位跟踪误差。网站：https://deformgs.github.io

关键词：感知，机器人学中的机器学习，操控与抓取

1 引言

近年来，在机器人学习领域，包括刚性和可变形物体操控在内的挑战性任务上取得了令人印象深刻的表现。要将这些方法扩展到部署阶段，将需要在鲁棒性和从少量演示中学习方面进行改进。为改善机器人学习性能，一条有前景的途径是中间表示和基础模型，包括 6D 物体姿态估计[10, 11, 27, 42, 50, 51, 55]、语义潜在特征[35]，和 2D 逐像素跟踪[21,52]。然而，由于自我遮挡、阴影和纹理变化（或缺乏纹理），导致可靠地操控可变形物体的感知和表示仍是一个开放性挑战。

三维密集点跟踪，或者称为 3D 场景流，是机器人操控的一个有用表示，因为它提供了表示高维动态状态变化的灵活性，同时在操控过程中可变形物体会下落、变形和悬挂。特别是，密集 3D 场景流可以作为模仿学习策略[3, 52]的输入，用于学习过渡模型[40]，识别和跟踪任务相关的关键点，或通过实际到仿真的转换创建数字孪生。最近在单眼跟踪方面的工作在如 TAP-Vid[13] 这样的数据集上提高了性能，但如何有效地从 2D 跟踪提升到 3D，以便在具有挑战性的高度可变形场景中进行机器人的空间理解，仍然不清楚。

为了克服这些限制，高斯涂抹提供了一个有前景的途径。最近的工作表明，高斯涂抹[22, 23]可以实现最先进的新视角合成和超过 100 fps 的渲染速度。具体来说，3D 高斯涂抹使用快速的可微渲染器来拟合一组高斯的颜色、位置和协方差。3D 高斯涂抹的一个扩展[29]显示了通过显式优化高斯的属性随时间的变化，可以对动态场景进行建模，从而实现新视角合成和场景流。

如动态 3D 高斯[29]中所述，显式优化高斯姿态可能会在大变形和阴影中导致性能下降。高斯属性可能会收敛到局部最优，特别是在具有大变形、强阴影和遮挡的场景中。

我们提出了 DeformGS，一种使用来自校准的多摄像机设置的时间同步图像帧来跟踪可变形物体在阴影和遮挡中移动的 3D 几何形状的方法。DeformGS 学习一组高斯的规范状态和一个将高斯映射到世界空间的变形函数。这使得通过恢复场景流和使用快速的可微光栅化器进行新视角渲染（通过涂抹）来进行跟踪成为可能。

我们在六个具有不同难度的真实感合成场景中评估 DeformGS。这些场景包含大的变形、阴影和遮挡（图1展示了 DeformGS 计算的场景和跟踪轨迹）。实验结果表明，与以往最好的方法[29, 53]相比，DeformGS 的 3D 跟踪结果的准确性提高了 55.8%。在一个 1.5 米 × 1.5 米的布料场景中（即场景 1），DeformGS 能够以低至 3.3 毫米的中位跟踪误差跟踪布料变形。

在这里插入图片描述图1：我们提出了一种名为 DeformGS 的方法，该方法改进了现有方法，用于在高度可变形的场景中进行精确的 3D 点跟踪。这幅图展示了在用于评估的六个动态 Blender [9] 场景中 DeformGS 的渲染和跟踪效果。我们将在此图中提到的场景依次称为场景 1、2、3、4、5 和 6，从左到右排列。

我们还在现实世界中对 Robo360 [26] 数据集评估 DeformGS。我们展示了在杂乱场景中跟踪刚性和可变形物体的定性结果，并研究了两个机器人应用：（1）实际到仿真的转换来创建数字孪生，以及（2）跟踪任务相关的关键点以用于下游抓取应用。

总结来说，我们的贡献如下：

我们提供了第一个专门设计用于使用 4D 高斯精确执行可变形物体的 3D 密集跟踪的方法。
我们提供了在同时进行 3D 度量跟踪和新视角合成方面表现出最先进性能的实验。DeformGS 在合成实验中平均提高了跟踪准确性 55.8%，并且在现实世界中展示了对可变形物体的稳健 3D 跟踪。后者可以作为模仿学习的表示，并代表了构建数字孪生的一种新方法。
六个具有大变形、强阴影和遮挡的合成场景。我们将开源场景和源代码。

2 相关工作

2.1 用于新视角合成的神经渲染

DeformGS基于新视角合成的先前工作，并使用光度一致性作为实现3D跟踪的信号。一种流行的新视角合成方法是NeRF [30]，它使用神经网络学习能够进行逼真的新视角重建的场景表示。基于粒子的方法比典型的基于NeRF的方法使用更明确的表示。DeformGS基于3D高斯涂抹[22, 23]，属于后者类别。[22] 提出了一种差分光栅化器，用于渲染大量的高斯“涂抹”，每个涂抹都包括其状态，包括颜色、位置和协方差矩阵。与基于NeRF的方法相比，高斯涂抹能够实时渲染新视角，同时达到最先进的性能。

2.2 动态新视角合成

神经渲染方法中假设场景静态，这阻碍了其应用于有移动物体或人的真实世界场景，例如本工作中的动态和可变形场景。解决这一假设的方法之一是为NeRF建模增加时间维度 [15, 18, 25, 54]。先前的工作要么将神经场基于显式时间输入或时间嵌入来调节。另一线工作学习变形场以将4D点映射到规范空间 [36, 37]，即每个空间和时间中的4D点都映射到一个3D点在规范NeRF中。DeVRF [28] 提出了模型动态非刚性场景的3D规范空间和4D变形场，具有显式和离散的体素表示。

最近的几项工作将上述方法扩展到3D高斯涂抹。动态3D高斯[29]显式模型每个时间步骤的每个高斯的位置和协方差矩阵。这种方法在有大变形、强阴影或遮挡的动态场景中表现不佳。我们基于最近的另一项工作，4D高斯涂抹[53]，该工作使用HexPlanes[6]和K-planes[17]中提出的特征编码技术，并学习变形场。

2.3 点跟踪

通常在大量数据上训练的点跟踪方法，通过提供强先验，帮助了先前的3D跟踪方法。我们还构建了几个包括点跟踪方法的基线（第6节）。先前关于点跟踪的工作通常研究跨视频帧跟踪2D点，其中一种主要方法是在包含地面真实点轨迹[12,14,20,57]或密集光流[48]的大规模合成数据集上训练模型。光流[2, 43]或场景流[1, 19, 45, 46]也可以被视为2D和3D中的单步点跟踪。

另一条相关的工作线密切结合动态场景重建和非刚性物体的运动估计。一个主要的设置是融合动态场景或物体的RGBD帧视频[33]。跟踪或对应匹配方法从模板跟踪已知形状或运动学先验的物体（如人类的手、脸或身体姿态）[7,34,39]，到更一般形状或场景[4,5,58]的跟踪看到了进展。与这些工作的主要区别是，我们不使用深度输入，并对跟踪特定点进行更严格的量化评估。

最相关的是最近的方法，从神经场景渲染获得跟踪。DCT-NeRF [47] 学习了一个基于坐标的神经场景表示，输出整个输入序列的连续3D轨迹。PREF [41] 优化了一个具有自监督运动预测损失的动态时空神经场。最近，Luiten 等人[29]对动态 3D 高斯进行了明确的跨时间戳建模，以实现跟踪。虽然我们的工作也利用3D高斯，但与动态3D高斯[29]中的显式建模不同，我们学习了一个随视频长度更好地扩展的变形函数，并且我们关注的是比[29]中使用的投掷球视频更具挑战性的可变形物体。

2.4 机器人跟踪

研究点跟踪的一个核心动机是其可能为机器人应用解锁的潜力：例如，RoboTAP[44]显示预训练的点跟踪模型提高了视觉模仿学习的样本效率。它检测任务相关的关键点，推断这些点应该移动到哪里，并计算将它们移动到那里的动作。Any-point[52]学习预测关键点轨迹，但条件是语言输入。Track2Act[3]基于Any-point，学习了一个可泛化的零样本政策，只需要几个特定于实体的演示。

刚体或6D姿态跟踪和估计在机器人领域有着丰富的历史，因为它是模型世界的基础能力，使机器人能够操纵[10, 11, 27, 31, 42, 49-51, 55]。在这项工作中，我们提出了一个可变形物体类似于6D姿态跟踪的模拟，目的是将成功扩展到可变形物体操纵。

虽然现有方法利用2D跟踪，并学习一个额外的策略来输出机器人动作，DeformGS提供了一个更强大的表示，允许直接在3D中进行推理，而不是在2D图像空间中。

3 问题陈述

给定一组从多个摄像机捕获的具有已知内外参的定时图像序列，目标是学习一个能够执行3D跟踪和新视角合成的模型。每个图像序列都在相同的时间间隔 $\in [0, H]$ 内捕获。

3D跟踪 主要目标是通过建模高斯随时间的变形来恢复场景中任意点的轨迹。因此，目标是找到一个函数 $x_t = Q(x_0, t_0, t)$ ，其中 $x_0 \in \mathbb{R}^3$ 是在选择的时间 $t_0 \in [0, H]$ 的一个感兴趣点的位置，而 $x_t \in \mathbb{R}^3$ 是同一个点在另一个选择的时间 $\in [0, H]$ 的位置。函数 $Q$ 对于任何点 $x_0$ 和任何 $\in [0, H]$ 都有效，允许跟踪空间中的任何点。

新视角合成 次要目标是通过使用光度一致性作为监督信号来实现准确的场景流。为了实现这一点，目标是从任意视点恢复新视角。任何视点的外参可以由矩阵 $P$ 捕获，其中 $P = K [R ∣ T]$ 。这里 $K$ 是内参矩阵， $R$ 是相对于世界坐标系的相机旋转矩阵， $T$ 是相对于世界坐标系的平移向量。具体来说，目标是学习一个函数 $V$ 使得 $I_{P,t} = V(P, t)$ ，其中 $I_{P,t}$ 是从时间 $t$ 的具有外参 $P$ 的相机渲染的图像。与跟踪目标一样，时间参数对于任何 $\in [0, H]$ 都有效。

4 初步

4.1 高斯抛洒

3D高斯抛洒（3D Gaussian Splatting）[22]通过渲染一大组由其均值位置 $\mu$ 和协方差矩阵 $\Sigma$ 定义的高斯来部署一个显式的场景表示。给定 $\in \mathbb{R}^3$ ，其高斯（多元正态分布）为
$e^{-\frac{1}{2}(x-\mu)^T \Sigma^{-1}(x-\mu)},$
直接优化协方差矩阵 $\Sigma$ 将导致不可行的协方差矩阵，因为它们必须是半正定的才具有物理意义。相反，高斯抛洒[22]提出将 $\Sigma$ 分解为每个高斯的旋转 $R$ 和比例 $S$ ：
$\Sigma = RS S^T R^T,$
并优化 $R$ 、 $S$ 和均值位置。

给定相机的变换 $W$ ，协方差矩阵可以投影到图像空间为
$\Sigma' = J W \Sigma W^T J^T,$
其中 $J$ 是投影变换的仿射近似的雅可比矩阵。

在渲染过程中，我们通过混合重叠像素的 $N$ 个有序高斯来计算像素的颜色 $C$ ：
$\sum_{i \in N} c_i \alpha_i \prod_{j=1}^{i-1} (1 - \alpha_j).$
其中 $c_i$ 是每个高斯的颜色，

$\alpha_i$ 由评估一个协方差乘以一个学习的每高斯不透明度 $\sigma$ [22, 56] 的2D高斯给出。

$\alpha_i$ 由评估一个二维高斯分布得出，其协方差乘以了学习到的每个高斯的透明度参数 $\sigma$ [22, 56]。

这种表示允许快速渲染新视角，并旨在重构场景的几何结构。

4.2 动态场景的形变场

以前的工作表明，将形变函数与静态的NeRF（Neural Radiance Fields神经辐射场）结合在规范空间中，可以在动态场景中实现新视图的合成。形变函数 $F_{\text{NeRF}} : \mathbb{R}^3 \rightarrow \mathbb{R}^3$ 把世界坐标中的点 $(x^{'})$ 变形到规范空间中的点 $(x)$ 。

以前的工作将 $F_{\text{NeRF}}$ 表述为一个多层感知器（MLP）[38] 和多分辨率体素网格 [16]。Wu等人 [53] 使用了类似的方法来处理动态场景中的高斯溅射。给定单个规范高斯的状态，由 $[\mu, S, R, \sigma, C]$ 在时间 $t$ 定义，形变函数为
$P' = F_{4DGS}(P, t),$
其中 $F_{4DGS}$ ，类似于Hexplanes [6]，包含空间和时间的神经体素编码。4D-GS [53] 从粗略阶段开始，用于初始化规范空间，设置 $P^{'} = P$ ，绕过形变场并直接学习规范属性。在细化阶段，我们学习形变函数。

我们提出了基于4D高斯 [53] 的DeformGS（图2），用于在动态场景中渲染新视图。与4D-GS的主要区别是：（1）我们提出了一种直观的方法，使用连续形变函数在世界坐标中跟踪规范高斯；（2）形变函数的输出不同，例如，DeformGS推断阴影并且不随时间改变不透明度或规模；（3）使用图3中显示的方法，我们对高斯的3D轨迹实施了物理启发的正则化损失。

在这里插入图片描述图 2：DeformGS使用形变函数 $F$ 将具有规范属性的一组高斯映射到度量空间。形变函数接收高斯的位置 $(x, y, z)$ 和一个查询的时间戳 $t$ ，来推断阴影 $s$ 、旋转 $r^{'}$ 和度量位置 $x^{'}$ 。在训练期间，我们使用度量位置和旋转来规范形变函数，考虑时间 $t = \{i-1, i, i+1\}$ 与高斯度量状态 $P'_{t-1}$ 、 $P'_{t}$ 、 $P'_{t+1}$ 。

在这里插入图片描述图 3：DeformGS在每次迭代时使用三个相邻的时间步来执行受物理启发的规范化项。所有的高斯通过形变函数 $F$ 变形到世界空间，并被光栅化以计算光度损失及其梯度。高斯的位置用于计算基于局部等距性和动量守恒的规范化项（见第5.2节）。

5 方法

DeformGS通过使用高斯的规范空间和一个将它们变形到世界空间的变形函数，实现了新视角合成和高质量的3D跟踪（第5.1节）。为了激励学习物理上可行的变形，DeformGS引入了几个规范化项（第5.2节）。最后，DeformGS学习3D遮罩，专注于场景动态部分的规范化和高斯变形（第5.3节）。

5.1 4D 高斯光栅化

规范神经体素编码。 与先前的工作一样，DeformGS学习了一个从规范空间的变形函数 $F$ 。我们使用神经体素编码以确保 $F$ 具有捕获复杂变形的足够容量。先前的工作[16,17,32,53]表明神经体素编码在动态场景中提高了新视角合成的速度和精度。我们利用 HexPlanes [6,53] 增加了同时3D跟踪和新视角合成的容量。

图2展示了规范神经体素编码的概览。六个体素模块中的每一个都可以定义为 $\in \mathbb{R}^{h \times lN_i \times lN_j}$ 。这里 $\{i, j\} \in \{(x, y),(x, z),(y, z),(x, t),(y, t),(z, t)\}$ ，即我们在所有可能的组合中采用 HexPlanes。 $h$ 是体素中每个特征向量的大小， $N_i, N_j$ 是每个维度中 HexPlanes 的大小， $l$ 是上采样比例。在每个模块中，每个平面有一个不同的上采样比例 $l$ 。为了查询多分辨率体素网格，我们使用双线性插值查询每个平面，最终得到一个用于变形 MLP 的特征向量。

变形 MLP。 变形 MLP 接收体素编码，并使用该编码将规范高斯变形为世界坐标。图2展示了变形 MLP，它根据来自神经体素编码的特征向量推断位置、旋转和一个阴影标量。我们选择这组输出来模拟每个高斯的刚体变换和光照变化。模拟光照变化在有阴影的情况下至关重要。我们将每个高斯的 RGB 颜色乘以阴影标量 $\in [0, 1]$ ，并通过将 MLP 的输出通过 Sigmoid 激活函数来确保阴影标量的范围在 [0, 1] 内。

接下来，我们对高斯进行变形，修改它们的平均位置 $\mu$ 和旋转 $R$ ，并得到一组在世界空间中的高斯，每个都具有状态 $P$ 。高斯抛洒[22]中的可微光栅化器然后渲染高斯以检索用于回归规范高斯状态和变形函数参数的梯度。

与4D高斯[53]不同，我们提议不使用变形场推断不透明度或尺度。随时间优化不透明度和尺度会让高斯消失或出现，而不是跟随运动，这将使跟踪不够准确。这种设计选择减少了变形函数的容量，因此与4D高斯相比可能会降低视图重建质量。

5.2 使用4D高斯进行3D跟踪

物理启发的损失。 图 3 显示了在世界空间中从典型空间追踪高斯的过程。通过查询变形函数 $F$ ，我们可以跟踪整个轨迹上高斯的位置。

如果没有额外的监督，这种方法不一定会收敛到物理上可行的变形。特别是当物体包含纹理少和颜色统一的区域时，仅靠光度一致性所约束的所有变形的解空间是不足的。为了学习一个更加实际的变形函数，我们提出了一些受物理启发的规范化项。

在经验性地评估了几种规范化项组合后，我们采用了在 [29] 中提出的等距损失，并添加了一个动量守恒项。第一个项捕获局部等距损失，我们根据 $k$ 个最近邻（KNN）高斯的状态来计算。

局部等距损失 我们激励高斯保持 $k$ 个最近邻的相对位置相对于 $t = 0$ 时是恒定的。随着足够的变形，这个假设在更大的尺度上会被打破，但在局部尺度上，这个规范化避免了从真实轨迹的漂移。等距损失为

$\mathcal{L}^{\text{iso}}_t = \frac{1}{k|\mathcal{P}|} \sum_{i \in \mathcal{P}} \sum_{j \in \text{knn}_i} w_{i,j} \left |\| \mu_{j,0} - \mu_{i,0} \right \|_2 - \left \| \mu_{j,t} - \mu_{i,t} \right \|_2|$
其中，

$w_{i,j} = \exp (-λ_w\|\mu_{j,0} − \mu_{i,0}\|^2_2),$

这里 $\mathcal{P}$ 是所有高斯的集合。

动量守恒 我们增加了一个项以激励动量守恒。牛顿第一定律指出，没有外力作用的物体，给定某个质量 $m$ 和速度向量 $\text{v}$ ，将保持它们的动量 $\cdot \text{v}$ 。我们引入了这个规范化项：

$\mathcal{L}^{\text{momentum}}_{i, t} = \left\| \mu_{i,t+1} + \mu_{i,t-1} - 2\mu_{i,t} \right\|_1$

这个公式描述了动量守恒的损失项：

这里 $\mu_{i,t}$ 表示时刻 $t$ 处高斯 $i$ 的位置。这个公式通过计算位置 $\mu_{i,t}$ 在连续三个时间点 $t - 1, t, t + 1$ 的二次差分的模来实现。如果位置的变化在这三个时间点内是线性的（即物体以恒定速度移动），那么这个值将为零。这个损失项用来鼓励场景中的动量守恒，符合物理学中的动量守恒定律。

这个术语鼓励常数速度向量，并具有施加低通滤波器到3D轨迹的效果。它使得轨迹平滑，减少了许多方向和大小（动量）的突变。

5.3 学习3D遮罩

在场景中准确学习3D跟踪，特别是当场景中包含静态和动态对象及丰富纹理时，会面临重大挑战，主要包括：（1）对所有高斯体施加物理启发的正则化术语可能会在动态和静态对象交互时引发问题；（2）对数百万个动态高斯体进行建模可能会成为一个显著的计算负担。

为解决这些问题，DeformGS采用动态场景组件（如布料）的噪声遮罩，并学习哪些高斯体是动态的。更正式地，我们通过以下公式渲染一个遮罩 $M$ ：
$\sum_{i \in N} m_i \alpha_i \prod_{j=1}^{i-1} (1 - \alpha_j).$
其中 $m_i$ 是每个高斯体的属性，取值在[0, 1]之间。然后，我们向损失函数中添加一个正则项，使得 $m_i$ 回归以最佳重建 $M$ 。最后，DeformGS使用 $m_i$ 来选择一部分高斯体为动态的，并且只对这些高斯体应用正则化术语。

6 实验

我们在包含高度可变形物体的合成和现实世界数据集上评估 DeformGS。第6.1节提供了模拟实验的设置、评估指标和基线方法的详细信息。第6.2节报告了比较方法的评估结果，并提供了分析。第6.3节列出了现实世界的评估设置，最后在第6.4节中，我们提供了 DeformGS 在现实世界中的性能的定性评估。

6.1 模拟实验设置

数据集准备 我们使用 Blender 模拟动态布料序列并渲染真实感图像。我们创建了6个不同的场景，每个场景都包含具有不同视觉和物理属性的不同布料，并从100个不同的摄像机视角和40个连续时间步长进行渲染，共计4000张图像进行训练。通过将每块布料放置在一个或几个不可见的球体上并掉落到地面或通过在一个固定点约束布料来引入布料变形。我们通过在 Blender 中跟踪可变形物体的网格顶点来获得真实轨迹。每个场景包含一个可变形物体和一个渲染背景。

先知基线 我们将 DeformGS 与有权访问地面真实深度和轨迹信息的2D跟踪先知模型进行比较。尽管这些方法不是为3D跟踪设计的，但它们以其印象深刻的2D跟踪性能而闻名。它们的数据有助于将其他基线的跟踪性能放入上下文中。我们在所有视图上运行 RAFT [43]，使用真实深度将跟踪投影到3D，并报告 RAFT 模型的平均结果。我们还提供了另外两种有权访问真实轨迹的先知方法。RAFT 先知首先在所有视图上进行评估，然后只从中位轨迹误差最低的视图输出轨迹。我们还报告了 OmniMotion 先知，它在 RAFT 最低MTE的视角上运行 OmniMotion [48]。在 Nvidia RTX 4090 GPU 上训练 OmniMotion 大约需要12-13小时，因此在所有100个视图上进行推断是不切实际的。RAFT 先知和 OmniMotion 先知的数字与其他方法的比较不是同类比较，因为要获得它们的结果，他们必须访问特权地面真实轨迹。

Gaussian splatting基线：（1）动态3D高斯（DynaGS）[29]，同样基于3DGaussian splatting技术进行动态新视角合成，但它显式地模拟了每个时间步长的每个高斯的位置和旋转。这通过找到距查询点最近的已学习高斯的轨迹，直接跟踪任何点。虽然原始论文假设第一帧有一个已知的点云，但我们使用一个随机采样的点云进行公平比较，DynaGS和DeformGS都不使用深度信息。

（2）最后，我们将其与使用4D高斯[53]（4D-GS）的跟踪进行比较。我们增加了一种方法来跟踪规范高斯的3D轨迹，如图3所示，从学习视角合成模型中提取3D轨迹。与4D-GS的比较旨在展示模型架构的改变、正则化项的使用，以及使用每高斯掩膜的学习对DeformGS的影响。

训练和评估设置 我们创建了一个包含6个动态布料场景的数据集，每个场景具有不同的物理和视觉属性（见图1）。对于DeformGS和4D高斯，我们进行了30,000次训练迭代，并设置点云修剪间隔为100，体素平面分辨率为[64, 64]，多分辨率上采样级别为 $L = \{1, 2, 4, 8\}$ 。我们为所有合成场景设置正则化超参数（第5.2节） $λ_w = 2,000$ ， $λ^{\text{momentum}} = 0.03$ ， $λ^{\text{iso}} = 0.3$ ，并且KNN的 $k = 20$ 。对于现实世界场景，我们保持所有超参数不变，但增加了动量和等距损失的正则化项。我们使用段落分割任意(SAM)[24]为初始帧生成掩膜，并使用XMem [8]将其传播到未来帧。

对于DynaGS，我们设置 $λ^{\text{rigid}} = 4$ ， $λ_w = 2000$ ， $λ^{\text{iso}} = 2$ ，以及KNN的 $k = 20$ ，与开源代码中的设置相同。

我们在每块布料上随机抽样1,000个点，对每种比较方法进行评估。

6.2 模拟结果

3D 点跟踪 根据以往的研究[29,57]，我们报告了中位轨迹误差（MTE）、位置精度（ $δ$ ）以及以0.5米为阈值的存活率[29]。

结果总结于表1。我们做出以下观察：
（1）DeformGS 在MTE上比基线模型 RAFT、DynaGS 和 4D-GS 低 55.8% - 76.0%，表现优于这些基线模型。
（2）RAFT 预测模型与其平均结果之间的差异展示了由频繁自遮挡引起的难度。这也指向了未来的研究方向，需通过光流和2D跟踪算法如RAFT进行额外的监督。
（3）预测模型表现很好，部分原因是由于这些序列的下落和短视野性质，限制了自我遮挡。在真实世界中，由于嘈杂的深度和长视野任务中更具挑战性的遮挡，我们预计会有更大的误差。如果没有访问到地面真实轨迹，也不清楚应选择哪个视点。
（4）如场景3中纹理较少的场景，其表现显著低于纹理丰富的场景。

在这里插入图片描述 a 该方法可获取地面实况深度。
b 该方法可获取地面实况轨迹，以选择最佳相机视角。

表 1：可变形布料数据集（图1）上的3D跟踪结果。对于每个指标，实线以上的方法有权访问特权信息，详情见ab和第6.1节。结果表明，DeformGS在所有平均指标上都优于基线，并与预测模型具有竞争力。结果还表明，我们的新型变形函数架构、按高斯学习掩模以及受物理启发的正则化损失提高了与4D-GS [53]相比的跟踪性能。我们不认为预测方法是公平的基线，因此没有加粗其结果。

定性结果 图4展示了场景5中的真实轨迹和推断轨迹。结果显示，特别是 DynaGS 和 4D-GS 在布料垂下时引入了大的误差。RAFT 在 DynaGS 和 4D-GS 上有所改进，但需要准确的深度估计。

在这里插入图片描述图 4：场景 5 的结果： 随机采样的真实轨迹以绿色显示，推断出的轨迹以红色显示，对应点的误差以红线显示。与基线方法相比，DeformGS在3D跟踪中产生的错误更少。

6.3 真实世界实验设置

Robo360 数据 Robo360数据集[26]是一个3D全视角多材质机器人操作数据集。它涵盖了许多不同的场景，包括由86个校准相机捕获的由机器人操作器和人类进行的操作。这些属性使其成为评估 DeformGS 在真实世界中的有效性的理想数据集。我们选择了两个场景：（1）一个人折叠大型羽绒被，和（2）一个人折叠较小的布料。在折叠布料的场景中，我们排除了完整显示整个人体的视点，以消除不必要的复杂性。

我们还对数据进行了二次采样，以演示 DeformGS 在较少视图下的表现。羽绒被折叠场景包含17个训练视图，而折叠布料场景包含20个训练视图。

6.4 真实世界实验结果

实景转模拟建模 Digital Twins 图 5 展示了重叠在渲染图像上的3D跟踪，以及每个时间步的高斯点。结果表明 DeformGS 能够在真实世界中成功推断出平滑且有意义的轨迹。虽然没有可用的真实轨迹，但这些轨迹看起来除了一些漂浮的高斯外，都紧密地遵循其几何形状。对正则化函数的超参数调整，以及丢弃低不透明度的高斯可能有助于解决这一问题。

该图中包含的点云可以在记录序列后用来创建数字孪生体。然后可以使用这个羽绒被和整个环境的数字孪生体，来为模仿学习方法创建更密集的监督。

在这里插入图片描述图 5：使用 DeformGS 重建的 Robo360 数据集[26]中，一个人在操作羽绒被。上排显示的是以点云形式的4D高斯，颜色代表密集的对应关系。下排显示的是渲染视图，上面叠加了投影到图像空间的3D轨迹。

任务相关关键点跟踪 机器人操作器可以从跟踪任务相关关键点中受益，例如布料的角或夹克的边缘。图 6 展示了在羽绒被和布料场景上，对 4D-GS [53] 和 DeformGS 进行的3D点跟踪的比较。结果表明 DeformGS 导致更平滑且总体上更有用的轨迹。4D-GS 的轨迹相互纠缠成更混乱的轨迹，看起来物理上不太可能。这将妨碍3D跟踪技术在机器人应用中的采用。

在这里插入图片描述图 6：将我们提出的 DeformGS 与 4D-GS [53] 进行实际世界结果比较。由 DeformGS 推断出的3D轨迹显得更加平滑和准确，而 4D-GS 显示的轨迹更加杂乱。

7 结论

在这项工作中，我们解决了具有可变形物体的动态场景中3D点跟踪的挑战性问题。我们介绍了 DeformGS，这是第一个学习可变形场景3D跟踪的连续变形的方法。我们通过实验证明 DeformGS 超越了基准方法，并在模拟和现实世界中，在具有遮挡和阴影的高度变形的布料对象上实现了高质量的动态场景重建和高精度的3D跟踪。我们还贡献了一个包含六个合成场景的数据集，以促进未来的研究。

局限性和未来的工作 DeformGS，类似于先前关于动态新视角重建的工作，需要多个同步和校准的摄像头的设置，这在现实世界的场景中可能需要重大的工程努力。此外，为了使其有益于可扩展的机器人应用，需要在实时性方面进行重大创新。

虽然 DeformGS 在先前的方法上有所改进，但我们确实观察到在某些情况下高斯体会偏离轨迹。我们还注意到该算法对正则化超参数（λ 动量和 λ 等距）相对敏感，这可能通过添加来自最先进点跟踪算法的监督在未来得到解决。这些局限性指向未来研究的有希望的方向。

致谢本工作得到了CMU的机器学习与健康中心（CMLH）和匹兹堡超级计算中心（PSC）的支持。我们感谢 David Held 的富有成效的讨论。

利益披露 作者声明与本文内容相关的没有竞争利益。