可微分的机器人渲染

24年10月来自斯坦福大学(哥伦比亚大学)的论文“Differentiable Robot Rendering”。

在大量视觉数据上训练的视觉基础模型,在开放世界环境中展现出了前所未有的推理和规划技能。将它们应用于机器人任务的一个关键挑战,是视觉数据和动作数据之间的模态差距。可微分机器人渲染,允许机器人身体的视觉外观相对于其控制参数直接可微分。该模型集成了运动学-觉察可变形模型和高斯 Splatting,并且与任何机器人外形和自由度兼容。应用例子包括从图像重建机器人姿势和通过视觉语言模型控制机器人。定量和定性结果表明,可微分渲染模型直接从像素为机器人控制提供有效的梯度,为视觉基础模型在机器人技术中的未来应用奠定基础。

如图所示:机器人可微分渲染(Dr. Robot),一种从视觉外观到控制参数完全可微分的机器人自模型。有了它,通过视觉基础模型提供的图像梯度来控制和规划机器人的动作。

请添加图片描述

如何表示机器人?传统上,机器人的外观由一组几何图元(例如三角网格)建模,其形态的变形由其运动结构建模。Dr. Robot,一种基于高斯 Splatting 的机器人自具身表示,从视觉外观到控制参数完全可微分。

机器人自模型 [1, 2, 3] 的可微分性至关重要。可微分表示能够通过反向传播将控制信号从像素空间传递到控制空间。拥有机器人的可微分自模型,能够使用梯度优化视觉奖励和约束,而不是诉诸无梯度优化方法,例如进化算法或强化学习。越来越多的证据 [4, 5, 6] 表明视觉基础模型可以为控制提供稳健且可推广的信号。

给定一个机器人姿势 p,目标是从任意相机视角将机器人的视觉外观 I 建模为可微分函数 f,

请添加图片描述

机器人的可微分渲染模型需要具备三个关键属性:全身可微分性、可变形性和渲染效率。分别使用正向运动学 (FK)、线性混合蒙皮 (LBS) 和高斯splatting (GS) 来建模这三个属性,如图所示。

请添加图片描述

给定一个姿势 p,将关节 j 相对于基础关节 0 的位置和方向表示为齐次矩阵 Tj §,它是沿运动链从父关节进行刚性变换的乘积:

请添加图片描述

处于标准姿势的机器人可以视为静态 3D 场景,可以使用高斯splatting (GS) [7] 进行建模。按照原始论文 [7] 的符号约定,标准姿势机器人可以表示为一组 3D 高斯 G,其均值为 {μk},其中每个高斯可以表示为:

请添加图片描述

此外,27 维球面谐波系数 c/shs 和不透明度 o 用于表示高斯在渲染过程中的外观。在优化过程中,每经过 N 个优化步骤后,每个高斯可以一分为二以增加体密度,不透明度较低的高斯会被截断以减少内存开销。

规范的 3D 高斯分布可以对处于静态姿势的机器人进行建模,但希望以任意姿势 p 渲染机器人。由于针对每个姿势优化单独的规范 3D 高斯是不现实的,因此需要构造一个几何变形函数,在给定姿势的情况下在 3D 空间中重定位高斯。遵循 SMPL [8],学习一种用于建模几何变形的线性混合蒙皮 (LBS)。经典 LBS 将网格上每个顶点的变换表示为关节变换的线性组合。

与 [8] 不同,优化过程中 3D 高斯的分裂和截断机制,使其与经典 LBS 不兼容,后者假设输入是一组固定的顶点。因此,提出隐式 LBS,它接受任意 3D 坐标,并输出一组权重,表示每个 J 关节变换的影响。具体而言,令 W(μ) : R3 → RJ 为隐式 LBS 函数,μ 为典型 GS 中某个三维高斯函数的位置,则几何变形函数 D 可表示为:

请添加图片描述

3D 高斯除了包含 3D 位置外,还包含外观和形状信息,即旋转矩阵 Rk、缩放矩阵 Sk 和球面谐波系数 c/shs,k 和不透明度 ok。因此,另外学习另一个外观变形函数 X,预测这些参数在 3D 高斯的规范和投影位置条件下的变化:

请添加图片描述

综合以上所有因素,给定标准 GS G 和机器人姿势 p,最终姿势 GS Gp 可以表示为:

请添加图片描述

给定一个摄像机视点 π 及其对应的视觉观察 I,最小化预测和观察之间的均方误差 (MSE) 来学习完整的机器人模型:

请添加图片描述

在测试时,可以通过图像梯度优化机器人动作来执行规划,以实现各种目标,例如从视觉基础模型计算出的视觉奖励。

如图所示,将学习的机器人模型与Deformable Gaussian [9] 获得的结果进行比较,展示其视觉质量。由于机器人运动结构复杂,[9] 无法拟合变形,而提出的模型可以。

请添加图片描述

应用演示:

  1. CLIP 实现文本-到-机器人姿态

在互联网数据上预训练的对比语言图像模型,已经展现出对开放世界图像的出色了解。在此演示中,用此功能来优化机器人手与 CLIP 判断为给定文本提示相似图像的相似性。具体而言,让 CLIP 表示为 C,它接收图像和语言嵌入,返回内容相似性。由于 CLIP 完全由神经网络构成,因此它是完全可微分的。此外,让 π 成为可微光栅化器。

如图所示:对 Shadow Hand 的关节角度进行优化,以最大化渲染图像和文本提示之间 CLIP 相似度;图中展示优化过程(左)以及不同提示的最终输出(右)。

请添加图片描述

  1. 视频模型实现文本-到-动作序列

最近的研究 [13, 5] 表明,生成视频模型可用于规划和指导机器人行为。由于动作数据不在这些模型的预训练中,因此这些方法会训练自身逆动力学模型来估计生成视频中的机器人姿势。Dr. Robot 能够重建图像和视频,因此它可以轻松地通过拖-放替换逆动力学模型。

在 ASU Table Top 数据集 [14] 中的 100 个episodes上对 Stable Video Diffusion 进行微调,这些episodes以提示的语言嵌入为条件,并遵循 [15] 的实施。在测试时,能够根据新的语言提示对视频模型进行条件调整,并通过优化重建损失 LRec 来重建机器人。如图所示此过程的样本:

请添加图片描述

猜你喜欢

转载自blog.csdn.net/yorkhunter/article/details/143420572