CoRL 2024 | 波士顿动力自主强化学习助力移动操作持续提升

论文标题:Continuously Improving Mobile Manipulation with Autonomous Real-World RL论文链接:https://continual-mobile-manip.github.io/resources/paper.pdf项目链接:https://continual-mobile-manip.github.io/作者单位:CMU 波士顿动力AI研究院论文思路:本文提出了一种完全自主的现实世界强化学习框架,用于移动操作任务,能够在无需大量设备部署或人工监督的情况下学习策略。这一框架的实现依赖于以下几点:1)任务相关的自主性,指导机器人在任务执行过程中更好地进行探索,并避免在接近目标状态时停滞不前;2)通过利用行为先验中的基本任务知识,实现高效的策略学习;3)设计了通用的奖励机制,将人类可解释的语义信息与低级别、细粒度的观测相结合。本文展示了该方法可以使 Spot 机器人在四个具有挑战性的移动操作任务中持续提升性能,任务平均成功率达到80%,相较于现有方法提高了3-4倍。论文设计:我们如何构建能够在各种环境中执行广泛任务的通用系统,并且尽量减少人为干预?尽管通过强化学习(RL)训练的视觉运动策略已经展现出将机器人引入开放世界环境的巨大潜力,但这些策略通常需要首先在仿真环境中进行训练。然而,构建能够涵盖现实生活中无限多样任务的仿真环境具有挑战性,尤其是涉及复杂的操作任务。如果学习过程能够直接通过与现实世界的互动进行,而无需广泛的环境仪器设置或人为监督,那会怎样呢?先前关于现实世界强化学习用于学习新技能的工作已在运动控制以及静止设置中的抓取和放置或灵巧手内操作任务方面取得了成果。考虑一个复杂的高维系统,例如在开放空间中学习的具备移动能力的多足机器人,其可探索的空间比受限的桌面环境大得多。自主运行这种复杂、高维的机器人往往不会产生有用的学习信号。例如,我们希望避免机器人仅仅在空中挥动手臂而不与物体互动。此外,即使任务取得了一定进展,机器人也不应停滞在接近目标状态的地方。虽然之前的研究已探索了使用目标循环来帮助保持状态多样性,但这尚未在移动系统中得到验证。此类系统还需要学习更复杂的技能,涉及对大型物体的约束操作,并且超越了简单的抓取和放置,这使得样本高效的学习至关重要。最后,当前强化学习方法中的奖励监督通常需要使用专用传感器进行物理仪器设置或依赖人为参与,这很难扩展到不同任务中。本文的方法针对自主性、高效策略学习和奖励设定等问题提供了解决方案。本文通过使用现成的视觉模型引导探索,朝向物体交互,从而提高数据采集的质量。这使得机器人能够在学习如何操作物体之前,先搜索、导航并抓取物体。为防止机器人停滞不前,本文通过将目标循环的方法扩展到移动任务中,并应用于多机器人系统,从而保持状态的多样性。为了实现样本高效的策略学习,本文将强化学习与包含基本任务知识的行为先验相结合。这些先验可以是具有简化和不完整模型的规划器,或者是程序生成的运动。为了在没有复杂仪器或人为参与的情况下实现奖励设定,本文结合了从检测和分割模型获得的语义信息与低级别的深度观测,用于物体状态的估计。本工作的主要贡献是提出了一种通用方法,通过自主强化学习(RL)直接在现实世界中持续学习移动操作技能。本文的方法主要包括以下几个核心组件:(1) 任务相关的自主性,用于收集具有有用学习信号的数据,(2) 通过整合先验知识与学习策略实现高效控制,(3) 结合高级视觉-文本语义与低级深度观测的灵活奖励设定。该方法使Spot机器人能够在4个具有挑战性的移动操作任务中持续提升性能,这些任务包括将椅子移动到目标位置(桌子在角落或围栏中央)、拾起并垂直平衡长柄簸箕,以及将纸袋扫至目标区域。本文的实验结果表明,该方法在各个任务中的平均成功率约为80%,相较于仅使用RL或行为先验的情况下结合任务相关自主组件,性能提升了4倍。在这里插入图片描述
图 1:持续自主学习:本文使一个具备移动能力的多足机器人通过在现实世界中的练习,学习执行多种任务,如移动椅子(上图,左和右)、扶正簸箕(上图,中间)以及扫地(下图),并且几乎不需要人为干预。在这里插入图片描述
图 2:方法概览:本文的方法的主要组成部分,帮助机器人在现实世界中持续练习任务。左图:任务相关的自主性,通过与物体交互来确保有用数据的收集,并通过多目标和多机器人设置的自动重置来保持状态多样性。中图:通过使用行为先验中包含的基本任务知识(如带有简化模型的规划器或自动化行为)辅助策略学习,实现高效控制。右图:灵活的奖励监督,结合了人类可解释的语义检测与分割信息以及低级别、细粒度的深度观测。本文设计的方法旨在使机器人能够自主练习并高效学习新技能,无需任务演示或仿真建模,并且最大程度地减少人为干预。算法1中展示了本文方法的概述。本文的方法包含三个组成部分,如图2所示:任务相关的自主性、利用行为先验实现的高效控制,以及灵活的奖励设定。第一个组件确保收集到的数据具有学习信号,第二个组件通过利用数据中的信号收集更优质的数据,从而快速改进控制器,第三个组件则描述了如何为任务定义学习信号。这一方法使得学习复杂的操作任务成为可能,包括工具使用和对大型、重物体的约束操作。在这里插入图片描述
在这里插入图片描述
图 3:任务目标:定义本文4个任务的目标循环状态 - (a-b):带有角落桌子的椅子移动,(c-d):带有中央桌子的椅子移动,(e-f):长柄簸箕扶正,(g-h):扫地。在这里插入图片描述
表 1:本文列出了先验的选择、它与策略的结合方式、奖励与物体状态的关系以及奖励是否稀疏的情况。实验结果:本文的现实世界实验旨在测试自主现实世界强化学习(RL)是否能够使机器人在执行各种任务时,持续改进移动操作技能。具体来说,本文希望解答以下问题:1)现实中的机器人是否能够高效地学习执行既需要操作又需要移动的任务?2)随着机器人收集更多数据,其性能是否会持续提升?3)结合先验知识和RL的结构化探索方法,与仅使用先验知识或仅使用RL相比,效果如何?4)通过自主训练学到的策略在测试环境中的表现如何?在这里插入图片描述
图 4:持续训练改进:成功率与样本数量的关系,比较本文的方法、仅使用RL和仅使用先验知识的表现。请注意,本文的任务相关自主方法应用于所有方法。结果表明,本文的方法在各任务中随着经验的积累持续改进,学习速度远快于不使用先验知识的RL,并且表现显著优于仅使用先验知识的情况。在这里插入图片描述
图 5:训练平均奖励:椅子移动任务中平均奖励与样本数量的关系。没有使用先验知识的RL其负平均奖励表明,机器人经常远离目标位置。在这里插入图片描述
图 6:左图:使用不完整模型的先验方法(RRT*)与桌子发生碰撞并陷入困境,无法恢复,因为规划器缺乏椅子与桌子交互动态的模型。右图:本文的方法能够有效地从碰撞中恢复,并完成任务。在这里插入图片描述
表 2:评估比较:最终策略在不同任务上的成功率。评估时,本文使用确定性策略,而不是像训练时那样从随机分布中采样。本文的方法获得了平均80%的成功率,比仅使用先验或仅使用RL提高了约4倍。总结和局限:本文提出了一种持续学习新移动操作技能的方法。该方法通过任务相关的自主性、使用行为先验的高效现实世界控制以及灵活的奖励定义来实现。目前的方法主要用于在物体被抓取后习得低级操作技能。当前的一个局限是,导航和搜索使用的是固定的第三人称摄像头进行自动化操作。这个问题可以通过在高级搜索问题上引入学习来解决,使机器人能够仅依赖其自我中心的观测。这将允许在更加非结构化、开放式的环境中进行学习。

猜你喜欢

转载自blog.csdn.net/weixin_44887311/article/details/143201085