OKAMI:通过单一视频的模仿教授人形机器人操作技能

24年10月来自UT Austin和Nvidia的论文“OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation”。

OKAMI,是一种从单个 RGB-D 视频生成操作规划并得出执行策略的方法。方法的核心是目标-觉察的重定向,这使人形机器人能够模仿 RGB-D 视频中的人体运动,同时在部署期间调整到不同的目标位置。OKAMI 使用开放世界视觉模型来识别与任务相关的目标,并分别重定位身体运动和手势。实验表明,OKAMI 在不同的视觉和空间条件下实现了强大的泛化,在从观察中进行开放世界模仿方面的表现优于最先进的基线。此外,OKAMI 推出轨迹可用于训练闭环视觉运动策略,平均成功率达到 79.2%,这样无需劳动密集型的远程操作。

部署通用机器人来协助完成日常任务需要它们在自然环境中自主操作。随着硬件设计的最新进展和商业可用性的提高,人形机器人成为人类生活和工作空间中部署有前途的平台。尽管它们具有巨大的潜力,但它们仍然难以在非结构化世界中自主操作和稳健部署。一项新兴的研究已经采用深度模仿学习方法进行人形操纵 [1-3]。然而,他们依靠大量的全身遥控演示,需要域专业知识和艰苦的努力。相比之下,人类天生就有能力观察同伴完成一项任务并模仿他们的行为。让机器人具备通过视觉观察进行模仿的能力,将更接近从互联网规模的人类活动视频中训练机器人基础模型的目标。

人形机器人控制。人们已经开发了运动规划和最优控制等方法来实现人形机器人的运动和操控 [10, 12, 17]。这些基于模型的方法,依赖于精确的物理建模和昂贵的计算 [11, 12, 18]。为了减轻严格的要求,研究人员探索了模拟中的策略训练和从模拟-到-现实的迁移 [10, 19]。然而,这些方法仍然需要大量的劳动力和专业知识来设计模拟任务和奖励函数,从而将其成功限制在运动领域。与自动化方法同时做的是,人们已经开发各种人为控制机制和设备,用于使用动作捕捉服 [9, 12, 20–24]、遥感驾驶舱 [25–29]、VR 设备 [1, 30, 31] 或跟踪人体的视频 [17, 32] 实现人形机器人的远程操作。虽然这些系统可以控制机器人产生各种行为,但它们需要实时的人为输入,这会造成巨大的认知和身体负担。

机器人操作的模仿学习。模仿学习显著提高了基于视觉的机器人操作效率 [33–44]。先前的研究表明,机器人只需几十次演示就可以学习视觉运动策略,完成从长范围操作 [34–36] 到灵巧操作 [37–39] 的各种任务。然而,收集演示通常需要域专业知识和高成本,给规模化带来了挑战。另一项工作侧重于单样本模仿学习 [40–44],但它们需要为元训练任务收集大量数据。最近,研究人员研究了一种从单个视频演示中进行模仿的新问题设置 [4–6],称为“从观察中进行开放世界模仿” [4]。

运动重定向。运动重定向在计算机图形学和 3D 视觉领域有着广泛的应用 [8],其中有大量文献研究如何将人类运动适应 avatars [45–47]。该技术已在机器人技术中采用,通过各种重定向方法在类人机器人或拟人机器人上重现类似人类的运动,包括基于优化的方法 [11、12、20、48]、基于几何的方法 [49] 和基于学习的技术 [10、13、17]。然而,在操作任务中,这些重定向方法已在遥控系统中使用,缺乏用于自动适应物体位置的视觉流水线。

本文探索通过观察人类来教人形机器人操纵物体。考虑一个最近被表述为“从观察中进行开放世界模仿”的问题设置,其中机器人从单个人类演示视频中模仿操作技巧 [4-6]。此设置可方便用户轻松演示任务,并使得人形机器人快速掌握新技能。使人形机器人能够模仿单个视频是一项重大挑战 — — 视频没有动作标签,但机器人必须学会在视频未演示过的新情况下执行任务。先前关于单次视频学习的研究,试图优化机器人动作,重建未来物体的运动轨迹 [4, 5]。然而,它们已应用于单臂操纵器,由于人形机器人自由度高、关节冗余度高,计算能力不强 [7]。同时,人类和人形机器人具有相似的运动结构,因此可以直接将人类动作重定向到机器人 [8, 9]。尽管如此,现有的重定向技术侧重于自由空间身体运动 [10–14],缺乏操纵所需的物体和交互的上下文-觉察。为了解决这一缺点,本文引入“目标-觉察重定向”的概念。通过将目标上下文信息纳入到重定位过程,所产生的人形运动可以有效地适应开放式环境中目标的位置。

如图所示 OKAMI 可以让人类用户通过一个视频演示来教人形机器人如何执行新任务。

请添加图片描述

OKAMI 是一种两步方法,用于解决人形机器人从观察中模拟开放世界的问题。OKAMI 首先使用给定 RGB-D 视频中的目标位置和重建的人体运动生成参考规划。然后,它将人体运动轨迹重定位到人形机器人上,同时根据目标的新位置调整轨迹。如图所示展示了整个流程。

请添加图片描述

参考规划生成

为了模仿视频 V 中的操作任务,OKAMI 必须识别要与之交互的任务相关目标。虽然先前的方法依赖于具有简单背景的无监督方法或需要额外的人工注释 [50–53],但 OKAMI 使用现成的视觉-语言模型 (VLM) GPT-4V,通过利用模型中内化的常识知识来识别 V 中与任务相关的目标。具体来说,OKAMI 通过从视频演示 V 中采样 RGB 帧并提示 GPT-4V 来获取任务相关目标的名称。使用这些目标名称,OKAMI 用 Grounded-SAM [16] 在第一帧中分割目标,并使用视频目标分割模型 Cutie [54] 跟踪它们在整个视频中的位置。此过程使 OKAMI 能够定位 V 中的任务相关目标,并为后续步骤奠定基础。

为了将人体运动重定位到人形机器人上,OKAMI 从视频 V 重建人体运动以获得运动轨迹。采用 SLAHMR [55] 的改进版,这是一种重建人体运动序列的迭代优化算法。虽然 SLAHMR 假设双手平放,但本文扩展优化了 SMPL-H 模型 [56] 的手部姿势,这些姿势使用 HaMeR [57] 估计的手部姿势进行初始化。此修改能够联合优化单目视频中的身体和手部姿势。输出是一系列捕捉全身和手部姿势的 SMPL-H 模型,使 OKAMI 能够将人体运动重定位到人形机器人。此外,SMPL-H 模型可以表示跨地域分布差异的人体姿势,从而可以轻松地将人类演示者的动作映射到人形机器人上。

在识别出与任务相关的目标并重建人体运动后,OKAMI 从演示 V 生成一个参考规划,供机器人完成每个子目标。OKAMI 通过对 V 进行时域分割来识别子目标,具体过程如下:首先用 CoTracker [58] 跟踪关键点,并检测关键点的速度变化以确定关键帧,关键帧对应于子目标状态。对于每个子目标,我们识别一个目标物体(由于操作而处于运动中)和一个参考物体(通过接触或非接触关系作为目标物体运动的空间参考)。目标物体是根据每个物体的平均关键点速度确定的,而参考物体是通过 GPT-4V 预测的几何启发或语义关系来识别的。确定子目标和相关物体后,生成一个参考规划 l0、l1、…… , lN ,其中每个步骤 li 对应一个关键帧,包括目标物体 o/target、参考物体 o/reference 和 SMPL-H 轨迹段 τ^SMPL/ti :ti+1 的点云。如果不需要参考物体(例如,抓住一个物体),则 o/reference 为空。点云是通过使用深度图像对 RGB 图像中的分割物体进行反向投影获得的 [59]。

目标-觉察重定位

根据视频演示中的参考规划,OKAMI 可使人形机器人模仿 V 中的任务。机器人通过定位与任务相关的目标并将 SMPL-H 轨迹段重定位到人形机器人上来遵循规划中的每步 li。然后通过逆运动学将重定位的轨迹转换为关节命令。此过程重复进行,直到执行完所有步骤,并根据特定于任务的条件评估成功与否。

要在测试时环境中执行规划,OKAMI 必须在机器人的观察中定位与任务相关的目标,提取 3D 点云以跟踪目标位置。通过关注与任务相关的目标,OKAMI 策略可在各种视觉条件下推广,包括不同的背景或存在与任务相关目标的新实例。

目标-觉察的关键方面,是使运动适应新的目标位置。在定位目标后,采用分解式重定向过程,分别合成手臂和手部运动。OKAMI 首先根据目标位置调整手臂运动,以便将手指放置在以目标为中心的坐标系内。然后,OKAMI 只需在关节配置中重定位手指,以模仿演示者如何用手与目标互动。

具体来说,首先将人体运动映射到人形机器人的任务空间,缩放和调整轨迹以考虑尺寸和比例的差异。然后,OKAMI 扭曲重定位的轨迹(trajectory warping),以便机器人的手臂到达新的目标位置。考虑两种轨迹扭曲情况——当目标和参考物体之间的关系状态不变时以及当关系状态发生变化时,相应地调整扭曲。在第一种情况下,仅根据目标物体位置扭曲轨迹;在第二种情况下,轨迹根据参考物体位置扭曲。
轨迹变形后,用逆运动学计算手臂的一系列关节配置,同时平衡逆运动学计算中的位置和旋转目标的权重以保持自然姿势。同时,将人类手部姿势重定位到机器人的手指关节,使机器人能够执行细粒度的操作。

最后,获得一个全身关节配置轨迹以供执行。由于手臂运动重定位是仿射的,该过程可以自然地扩展和调整具有不同人口统计特征的演示者动作。通过调整手臂轨迹以适应目标位置并独立重定位手部姿势,OKAMI 实现跨各种空间布局的泛化。

在行为克隆实验中选择 ACT [61],该算法已被证明在学习人形机器人操纵策略方面非常有效 [67]。值得注意的是,选择预训练的 DinoV2 [68, 69] 作为策略的视觉主干。该策略以单个 RGB 图像和 26 维关节位置作为输入,并输出机器人要达到的 26 维绝对关节位置的动作。如表所示用于行为克隆的超参。

请添加图片描述

如图所示:所有任务的人类演示和机器人演示的初始帧和最终帧的可视化。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/yorkhunter/article/details/143577103