24年10月来自谷歌的论文“ALOHA Unleashed: A Simple Recipe for Robot Dexterity”。
最近的研究显示,使用模仿学习来学习端到端机器人策略取得了良好的效果。这项研究解决了一个问题:在具有挑战性的灵巧操作任务中,模仿学习可以发挥多大作用。在 ALOHA 2 平台上,一个简单的大规模数据收集方法,结合扩散策略等富有表现力的模型,可以有效地学习涉及可变形体和复杂接触丰富动态的具有挑战性双手操作任务。在 5 个具有挑战性的现实世界任务和 3 个模拟任务上展示了该方法,并展示了比最先进基线更好的性能。
如图所示:ALOHA Unleashed 训练具有扩散损失的Transformer编码器-解码器架构,学习高度灵巧的双手操作任务,例如挂衬衫和系鞋带。
传统上,人们认为系鞋带或将 T 恤挂在衣架上等灵巧操作任务很难用机器人完成。从建模的角度来看,这些任务具有挑战性,因为它们涉及具有复杂接触动力学的(可变形)物体,需要许多操作步骤才能完成任务,并且需要高维机器人操纵器的协调(尤其是在双手设置中),并且通常对精度有很高的要求。近年来,模仿学习已成为获得可解决各种任务策略的秘诀。然而,这些成功案例大多主要涉及非灵巧任务,如取放 [1] 或推动 [2]。因此,目前还不清楚简单地扩大模仿学习是否足以实现灵巧操作,因为收集一个涵盖系统状态变化且具有此类任务所需精度的数据集似乎过于困难。
模仿学习。模仿学习使机器人能够从专家演示中学习 [6]。早期的研究通过运动原语的视角来解决这个问题 [7、8、9、10]。随着深度学习和生成模型的发展,提出了不同的架构和训练目标来端到端地对演示进行建模。这包括使用 ConvNets 或 ViT 进行图像处理 [11、12、13]、RNN 或 transformers 来融合历史观察 [14、15、16]、动作空间的token化 [1]、生成建模技术,如基于能量的模型 [17]、扩散 [18] 和 VAE [19、20]。
双手操作。双手操作在机器人技术领域有着悠久的历史。早期的研究从优化的角度处理双手操作,利用已知的环境动力学 [21, 22]。然而,获取这样的环境动力学模型可能非常耗时,尤其是那些捕捉丰富接触或可变形体的环境动力学模型。最近,学习已被纳入双手系统,包括强化学习 [23, 24]、模仿学习 [25, 26, 27, 28, 29] 或学习调节低级运动原语的关键点 [30, 31, 32]。以前的研究还研究了高度灵巧的双手操作任务,例如解结、压平布料,甚至穿针引线 [31, 33, 34]。然而,所使用的机器人不太容易获得,例如来自 Intuitive Surgical 的手术机器人。
在现实世界中扩大机器人学习。许多研究都试图使用现实世界的数据收集来扩大机器人学习。遥控操作是一种收集高质量数据的方法,由人在环中控制机器人。先前的研究已经使用 VR 控制器或触觉设备在单臂机器人上收集了大量数据集 [13, 35, 16, 36, 37],展示了对新场景和物体的泛化。或者,也可以对机器人进行编程 [38] 或通过强化学习 (RL) 算法 [39] 控制机器人以自主收集数据,从而减少对人工监督的需求。收集专家数据的另一种方法是使用可穿戴或手持设备,例如夹钳 [40、41、42]、外骨骼 [43] 或追踪手套 [44]。这样就可以扩大数据收集规模,而无需完整的机器人。人们也在不断努力将上述所有数据集结合起来,以训练一个可以控制多个机器人的单一模型 [45]。
ALOHA Unleashed 是一种通用的模仿学习系统,用于训练机器人的灵巧策略。在 ALOHA 2 上展示了结果,它由一个双手平行爪夹持器工作单元和两个 6 自由度臂组成。ALOHA Unleashed 包含一个可扩展的远程操作框架,允许用户收集数据来教机器人,并结合一个基于 Transformer 的神经网络,该网络使用受 [18] 和 [20] 启发的扩散策略进行训练,为模仿学习提供了一种富有表现力的策略公式。通过这个简单的配方,在 5 个具有挑战性的现实世界任务上展示了自主策略:挂衬衫、系鞋带、更换机器人手指、插入齿轮和堆叠随机初始化的厨房用品。还展示了 3 个模拟双手任务的结果:单钉插入、双钉插入和将杯子放在盘子上。
策略架构如图所示:每个摄像机视图都嵌入 ResNet50 [46]。Transformer 编码器嵌入观察结果并生成潜嵌入。Transformer 解码器接收嘈杂的动作并交叉关注编码器生成的潜嵌入,输出预测的噪声。解码器部分在推理过程中运行 50 次,迭代地对动作块进行去噪。
扩散策略。使用的数据集具有固有的多样性,因为数据是从多个操作员那里收集的,包含各种远程操作策略,并且是在多个机器人工作单元上长时间收集的。这需要一个富有表现力的策略公式来适应数据。为每个任务训练一个单独的扩散策略。扩散策略提供稳定的训练,并通过多模态输入(来自不同视点和本体感受状态的 4 张图像)和 14 自由度动作空间表达多模态动作分布。用去噪扩散隐态模型 (DDIM) [47] 公式,它允许在测试时灵活地使用可变数量的推理步骤。执行动作分块 [20],允许策略预测 50 个动作块,表示跨越 1 秒的轨迹。该策略输出 12 个绝对关节位置,每个 6 自由度的 ViperX 臂 6 个,以及两个夹持器中每个夹持器位置的连续值。由于用长度为 50 的动作块,因此策略输出形状为 (50, 14) 的张量。在训练期间使用 50 个扩散步,并使用 [48] 中的平方余弦噪声调度。
基于 Transformer 的架构。对于基础模型,扩展类似于 [20] 中使用的 Transformer 编码器-解码器架构的架构。用基于 ResNet50 [46] 的视觉主干,以 Transformer 编码器-解码器 [49] 架构作为神经网络策略。4 个 RGB 图像中的每一个都调整为 480x640x3 并输入到单独的 ResNet50 主干中。每个 ResNet50 都从 ImageNet [50] 预训练分类模型做初始化。采用 ResNets 的第 4 阶段输出,为每个图像提供 15 x 20 x 512 特征图。特征图被展平,从而产生 1200 个 512 维嵌入。附加另一个嵌入,它是机器人本体感受状态的投影,由每个手臂的关节位置和夹持器值组成,总共有 1201 个潜特征维度。将位置嵌入添加到嵌入中,并将其输入到 85M 参数 Transformer 编码器中,以双向注意的方式对嵌入进行编码,从而生成观察的潜嵌入。潜特征被传递到扩散去噪器中,这是一个具有双向注意的 55M 参数Transformer。解码器Transformer的输入是一个 50 x 14 张量,对应于有一个学习位置嵌入的一个含噪动作块。这些嵌入交叉关注来自观察编码器的潜嵌入以及扩散时间步长,后者表示为一个one-hot向量。 Transformer 解码器的输出尺寸为 50 x 512,通过线性层将其投影到 50 x 14 中,这对应于块中接下来 50 个动作的预测噪声。总的来说,Base 模型包含 217M 个可学习参数。对于消融实验,还训练模型的 Small 变型,它使用 17M 参数 Transformer 编码器和 37M 参数 Transformer 解码器,总网络大小为 150M 个参数。
训练细节。用带有数据并行网格(mesh)的 64 个 TPUv5e 芯片,通过 JAX [51] 训练模型。用 256 的批处理大小并训练 2M 步(大约 265 小时的训练)。用 Adam [52] 优化器,权重衰减为 0.001,线性学习率预热 5000 步,然后以 1e-4 的恒定速率进行训练。
测试-时间推理。在测试时,首先从高斯分布中采样一个噪声动作块。从 4 个 RGB 摄像头和机器人的本体感受状态收集最新观测值,并将它们传递给观测编码器。然后,运行扩散去噪循环 50 次,输出去噪动作块。不需要 [20] 中的时域集成,只需在块的开环中执行 50 个动作。在 RTX 4090 GPU 上,通过网络和迭代去噪过程的完整前向传递需要 0.043 秒。由于运行动作块的开环,因此能够超越 50Hz 的目标频率。
模拟任务如图所示,从左到右:单次插入,需要将红色钉子插入蓝色插槽;杯子在盘子上,杯子和盘子在桌子上随机初始化;双次插入,需要将红色钉子插入两端的两个不同插槽;ALOHA 允许通过木偶操纵界面进行双手遥控,该界面允许人类遥控操作员反向驱动两个较小的引导臂,其关节与两个较大的跟随臂同步。
收集以下 5 项任务的数据:
衬衫悬挂(Shirt):此任务需要将衬衫挂在衣架上。详细步骤包括展平衬衫、从衣架上取下衣架、进行交接、拿起衬衫、将衣架的两侧精确插入衬衫领子,然后将衬衫挂回衣架上。这是一项具有挑战性的任务,需要多个步骤,包括可变形操作、插入和灵巧的拾取和放置行为,例如将衣架从衣架上钩住和取下。构建此任务的两个变型:ShirtEasy 具有更受约束的初始化,衬衫平放在桌子上并居中;ShirtMessy 允许初始化衬衫进行旋转和揉皱,并且起始位置的变化明显更大。
系鞋带 (Lace):这项任务需要将鞋子放在桌子中央,拉直鞋带,然后进行系鞋带的动作。为这项任务构建两个变型:LaceEasy 具有受约束的初始化,鞋子放在桌子中央,鞋带向外延伸;LaceMessy 允许鞋子的角度有 ±45 度的变化,并且不需要将鞋带弄平。
机器人手指更换 (FingerReplace):这项任务需要从开槽机构中取出机器人手指,拿起替换手指,重新定位手指,然后以毫米公差精确插入插槽。
齿轮插入 (GearInsert):这项任务需要将 3 个塑料齿轮以毫米精度插入插座中,并进行摩擦配合,同时确保齿轮完全就位,齿轮上的齿与相邻齿轮啮合。
随机厨房堆叠 (RandomKitchen):此任务需要清理随机初始化的桌子,方法是将碗、杯子和餐具堆叠在一起,并将堆叠物放在桌子中央。
Shirt 情节如图所示:这项任务耗时较长,涉及可变形体,需要几次灵巧的双手行为才能达到将衬衫挂在衣架上的最终目标。
学习行为如图所示:模型能够从数据中学习有趣行为,包括 FingerReplace 中的重定位和精确插入、RandomKitchen 中的相对夹持器控制以及 ShirtMessy 和 LaceMessy 中的模式切换行为。
添加图片注释,不超过 140 字(可选)
为了扩展这些任务的数据收集,创建一个协议,允许非专家用户提供高质量的遥控演示。协议文件概述了如何使用机器人的说明以及正在执行任务的具体说明。这允许 35 名操作员在不受研究人员监督的情况下持续收集数据。使用此协议,在 8 个月内收集 2 个不同建筑物中 10 个不同机器人 5 个真实任务的 26000 多的 episodes。在多个机器人工作单元上进行长期数据收集面临许多挑战。由于组装错误或一般差异,机器人的硬件组装(例如机器人或摄像头的安装位置)可能存在差异。此外,机器人的硬件更改或一般磨损可能会改变机器人的动态和行为。建筑物之间的变化和机器人放置位置的差异,导致 RGB 图像的背景和光照存在多样性。从 35 位不同的操作员收集数据会导致行为存在很大差异,即使每个任务都有详细的协议文档。
如图是ALOHA 2 的工作单元,标有工作单元差异测量部分的标签。