论文阅读笔记:D3RoMa: Disparity Diffusion-based Depth Sensing for Material-Agnostic Robotic Manipulation

论文阅读笔记:D3RoMa: Disparity Diffusion-based Depth Sensing for Material-Agnostic Robotic Manipulation

1 背景

深度传感是基于 3D 视觉的机器人技术的一个重要问题。然而,现实世界的主动立体或 ToF 深度相机经常会产生嘈杂且深度不完整,从而成为机器人性能的瓶颈。

传统的立体到深度算法,如 SGM 存在基本问题:

(i)原则上,由于复杂的光路,它们无法处理非朗伯表面;

(ii)遮挡和视野外区域禁止计算像素对应关系。

最近的工作利用基于学习的技术来获取或恢复更好的深度图。虽然它们在一定程度上缓解了上述问题,但预测透明和镜面物体的深度仍然具有挑战性,因为由于前景-背景颜色混合,它们从 RGB 像素值获得的图像特征本质上是模糊的,因此可能会误导对应估计。

2 创新点

(1)基于扩散模型的立体深度估计框架,可以预测最先进的深度并恢复透明和镜面表面的噪声深度图。

(2)通过引导扩散将立体几何约束集成到学习范式中。

(3)一个新的场景级 STD 合成数据集,可模拟真实的深度传感器 IR 模式和照片级真实感渲染。

(4)通过本文更高质量的深度图和 3D 点云,机器人操作任务得到了显著改进。

3 方法

本文提出了 D 3 R o M a D^3RoMa D3RoMa ,这是一个基于立体图像对的基于学习的深度估计框架,可以在不同的室内场景中预测干净和准确的深度,即使在经典深度传感完全失败的半透明或镜面表面最具挑战性的场景中也是如此。本文方法的关键是,通过使用去噪扩散概率模型预测视差图,将深度估计和恢复统一为图像到图像的翻译问题。在推理时,进一步纳入了左右一致性约束作为扩散过程的分类器指导。本文的框架结合了最近先进的基于学习的方法和传统立体视觉的几何约束。对于模型训练,创建了一个大型场景级合成数据集,其中包含各种透明和镜面物体,以补偿现有的桌面数据集。

本文提出了 D 3 R o M a D^3RoMa D3RoMa。没有像以前的大多数工作那样用成本量来构建网络,而是通过使用去噪扩散概率模型预测视差图,将深度估计中的密集匹配问题转化为图像到图像的转换问题。这种范式不依赖于低级特征匹配,而是释放了生成模型的力量,将左右帧直接转换为目标视差图像。更具体地说,本文的方法带来了双重好处:

(i) 与之前工作的回归模型不同,框架中的扩散模型能够对透明或半透明表面的多模态深度分布进行生成建模。

(ii) 多步去噪过程类似于迭代求解器,取代了之前的迭代网络,如 RAFT-Stereo 和 HitNet。

此外,在推理时,通过引入左右一致性损失,进一步整合了传统立体视觉的几何约束。损失作为分类器指南集成到扩散采样过程中。整个范式通过在扩散模型的评分函数中对它们的梯度进行简单求和,将基于学习的预测和传统的几何建模相结合。

在这里插入图片描述

为了训练网络,制作了一个合成数据集 HSSD-IsaacSim-STD (HISS),其中包含大约 10000 个立体图像对,模拟了真实的主动立体红外模式,包括 160 多个室内场景中的 350 多个透明和镜面物体 。本文的数据集极大地扩展了现有的数据集,这些数据集仅限于近扩散材料、桌面设置或没有真实的深度传感器模拟 。在合成数据集上进行训练,本文的模型可以直接应用于现实世界的野外场景,如图1,并且不仅在传统的立体基准测试中,而且在针对镜面、透明和扩散 (STD) 对象的数据集上实现最先进的性能。为了进一步验证在机器人操作方面的有效性,作者在模拟和真实环境中进行了实验,从桌面抓取到室内场景中的移动抓取。观察到,通过本文的方法预测的高质量深度图和 3D 点云,机器人操作的成功率可以在各种环境中显着提高。

4 模块

4.1 预备知识

(1)双目深度估计

一旦知道一对立体相机之间观察到的点的视差图 x x x ,就可以使用相机固有参数通过 d = ( f ⋅ b ) / x d = (f·b)/x d=(fb)/x 计算这些点的深度图 d d d ,其中 f f f b b b 分别是相机焦距和立体基线。视差图 x x x 的估计传统上被建模为密集匹配问题,可以在图像域中求解。因此,立体深度估计可以独立于不同的相机设备进行研究。

(2)DDPM

扩散模型 是特殊的潜在变量模型,它反转扩散(正向)过程,该过程通过马尔可夫过程逐渐扩散原始数据 x 0 x_0 x0

在这里插入图片描述

其中,方差 β t β_t βt 是根据预定义的schedule设置的。这种马尔可夫链的一个很好的特性是,它在任何时候都具有解析形式 x t = α ˉ t x 0 + 1 − α ˉ t ε x_t = \sqrt{\bar{α}_t}x_0 + \sqrt{1 − \bar{α}_t}ε xt=αˉt x0+1αˉt ε ,其中 α ˉ t = ∏ s = 1 t α s \bar{α}_t = \prod^t_{s=1}α_s αˉt=s=1tαs α s = 1 − β s α_s = 1 − β_s αs=1βs ε ∼ N ( 0 , I ) ε∼N(0, I) εN(0,I) 。去噪(逆)过程也是一个马尔可夫链,具有学习的高斯过渡核:
在这里插入图片描述

其中,方差简化为 β t I β_tI βtI ,平均值被重新参数化,使时间条件降噪网络 s θ ( x t , t ; θ ) s_θ(x_t, t; θ) sθ(xt,t;θ) 近似添加的噪声 ε ε ε 。Ho等[30]提出通过最小化简化损失来训练去噪网络:

在这里插入图片描述
当网络训练收敛时,噪声分布的梯度也称为评分函数为:
在这里插入图片描述

在推理过程中,可以通过类似于随机梯度朗之万动力学 (SGLD) 的祖先采样生成数据样本:
在这里插入图片描述

4.2 用于深度估计都视差扩散

作者将立体深度估计问题表述为扩散模型中的图像到图像的转换问题。一个重要的设计选择是要调节什么。该模型通常被制定为以立体图像对 I l I_l Il I r I_r Ir 为条件,以进行立体深度估计。本文的实验发现,额外基于原始视差 D ~ \widetilde{D} D 的条件使网络在训练过程中收敛得更快,并且在分布外场景中更稳健地泛化。原始视差可以很容易地从传统的立体匹配算法 SGM 或真实的相机传感器输出中获得。对于像 RealSense 这样的真实主动立体深度传感器,左右图像由红外 (IR) 摄像头捕获,红外投影仪投射具有特殊的阴影图案。结果,在左右图像和原始视差图 D ~ \widetilde{D} D 上进行调节,训练一个条件扩散模型来学习视差图的分布:
在这里插入图片描述

其中 y = { I l , I r , D ~ } y = \{I_l, I_r,\widetilde{D}\} y={ IlIrD } 。实证表明,这种条件去噪网络是成功的。Batzolis等[47]进一步证明(参见定理1),即使条件 y y y 没有出现在训练目标中,也可以通过式-4中的相同训练目标来学习条件分数 ∇ x t p ( x t ∣ y ) ∇_{x_t}p(x_t|y) xtp(xty) 。在训练网络后,可以通过式-8来估计视差:
在这里插入图片描述

4.3 基于立体几何的反向采样

受图像生成任务的分类指导 [48] [49] 的启发,建议用基于模型的几何梯度来指导视差扩散过程。引导式反向过程如“Figure 2” (Wei 等, 2024, p. 5) (pdf) 所示。具体来说,条件评分函数受到立体匹配计算的梯度的干扰:
在这里插入图片描述

其中 L s m L_{sm} Lsm 是相似性损失函数,它将左侧图像与扭曲的左侧图像进行比较。扭曲的左侧图像是通过对具有估计视差的右侧图像进行扭曲而获得的。 s ∈ R + s ∈ R^+ sR+ 控制几何引导强度,并平衡从扩散模型中学习的梯度和从立体模型中学习的几何梯度。附录 B 中提供了式-9 的详细推导。为了减轻立体匹配中的梯度局部性,在计算立体匹配的梯度时将立体图像下采样为多个不同的较低分辨率。更具体地说,我们有:

在这里插入图片描述

其中 k k k 是不同分辨率的图层索引, γ ∈ R + γ∈R^+ γR+ 是平衡光度和平滑度损失的加权常数。 L s s i m L_{ssim} Lssim 是结构相似性指数(SSIM),它计算左图像 I l I_l Il 和翘曲图像$ \widetilde{I}_{left}$ 之间的光度损失:
在这里插入图片描述
其中 u u u v v v 是图像平面中的像素坐标, ⟨ ⟩ ⟨⟩ 是线性采样操作。 L s m o o t h L_{smooth} Lsmooth 是一种边缘感知平滑度损失,定义为:
在这里插入图片描述
它通过惩罚非边缘区域中的大不连续性来规范差异。这里 ∂ u ∂_u u 表示图像平面中 u u u (水平)方向的偏导数。然后,按照式-6中介绍的采样过程,使用式-9 中的扰动梯度预测视差图 x 0 x_0 x0 。最后,一旦知道了相机参数,就可以将视差转换为深度。

4.4 HISS合成数据集

作者基于Habitat Synthetic Scenes Dataset(HSSD) 创建了合成数据集 HISS。利用 HSSD 的 168 个高质量室内场景来增加场景多样性。对于对象,总共包括来自 DREDS 和 GraspNe 的 350 多个对象模型。场景和随机选择的对象 CAD 模型在 Isaac Sim 中渲染。在渲染过程中,对象材质和场景照明在模拟中专门随机化,以模拟现实世界中对象(杯子、玻璃杯、瓶子等)的透明或镜面反射物理属性。为了获得透明表面的正确深度值,采用了 two-pass 方法。首先,渲染对象材质设置为 diffuse 的场景的 RGB 图像和深度图。照明全部打开,以实现照片级真实感渲染。在第二遍中,关闭正常照明,并在场景上投射类似的阴影图案,以模拟实感 D415 红外立体图像。使用 RealSense D415 深度摄像头的固有特性,渲染了 10,000 多张具有模拟阴影图案的照片级逼真立体图像。实验表明,本文的数据集是本文的方法在现实世界中具有出色的泛化性的关键推动因素。

5 效果

不同SOTA模型在DREDS数据集上的效果对比,可见表1。
在这里插入图片描述

6 结论

经过训练的模型可以直接应用于现实世界的野外场景,并在多个公共深度估计基准测试中实现最先进的性能。在真实环境中的进一步实验表明,准确的深度预测可以显著改善各种场景中的机器人操作。

猜你喜欢

转载自blog.csdn.net/Z960515/article/details/147095482
今日推荐