前言
我司之前通过模仿学习的方法,给过两家工厂做过自动线缆插板的机器人解决方案,所以对类似业务场景的解决方案一直保持着高度关注
- 近日,看到UC伯克利提出的通用灵巧机器人框架:结合视觉和人类演示与修正的RL方法,可以做到自动插拔USB线,和线缆插拔场景很像,而且是通过视觉与人为参与的RL方法训练,看着效果还可以
- 加之,我为了加速我司各块业务的更快、更好落地,故在不断做前沿探索,从而一直在看各种paper 然后解读paper
故本文来了,且本文的这个HIL-SERL工作,算是开启了机器人「视觉 + 人工示教、纠正 + RL训练」的路线
第一部分 通用灵巧机器人框架:HIL-SERL
1.1 HIL-SERL及其与以前工作的差异
1.1.1 HIL-SERL:其结合视觉和人类演示与修正的RL方法
近日,UC伯克利的一研究团队(Jianlan Luo, Charles Xu, Jeffrey Wu, Sergey Levine),通过此篇论文《Precise and Dexterous Robotic Manipulation viaHuman-in-the-Loop Reinforcement Learning》提出了一个通用灵巧机器人框架:HIL-SERL,其结合视觉和人类示教与纠正的RL方法进行训练
具体而言,他们在策略训练过程中,包含一个精心设计的低级控制器以确保安全。在训练过程中,系统会向人类操作员查询潜在的修正,然后以离线策略的方式更新策略
他们发现这种人机互动的修正程序对于使策略从错误中学习并提高性能至关重要,特别是对于本文中考虑的难以从头学习的挑战性任务
- 他们的系统解决的任务包括在锅中动态翻转物体、从塔中抽出一个积木、在两只机械臂之间传递物体 以及组装复杂设备如计算机主板、宜家货架 汽车仪表板或正时皮带,使用一只或两只机械臂
- 这些任务在复杂和精细的动态、高维状态和动作空间、长时间跨度或其组合方面提出了重大挑战
其中一些技能以前被认为在现实世界环境中直接用RL训练是不可行的,比如许多双臂操作任务,或者几乎无法用当前的机器人方法解决,比如正时皮带的组装或积木抽取。而且它们需要不同类型的控制策略,例如反应式闭环控制用于精确操作任务或其他难以预设的精细开环行为,例如,Jenga抽积木
换言之,是第一个在现实世界环境中使用RL实现双臂协调和任务,如抽积木和组装正时皮带
总之,UC伯克利的这个工作,表明RL确实可以在现实世界中以实际可行的训练时间直接学习一系列复杂的基于视觉的操作策略,这在以前的方法中被认为是不可行的
该系统在现实世界中仅用1到2.5小时的训练时间训练RL策略,以实现几乎完美的成功率和超越人类的周期时间。且他们的训练RL策略在成功率方面比在相同数量的人类数据(例如,相同数量的示范或纠正的集数)上训练的模仿学习方法平均提高了101%,周期时间快了1.8倍
1.1.2 其与以前工作的差异
- 与他们最相关的工作之一是SERL(Luo等,2024a),它也提出了一个用于训练强化学习(RL)策略以完成操作任务的系统
伯克利的方法与SERL不同之处在于:伯克利结合了人类演示和修正来训练RL策略,而SERL仅依赖于人类演示。虽然这看起来只是一个微小的区别,但伯克利的结果表明,整合修正对于使策略从错误中学习并提高性能至关重要,特别是对于那些智能体从零开始学习具有挑战性的任务
此外,SERL专注于相对较短的简单任务,并未涉及双臂协调或动态操作。伯克利的独特贡献在于展示了他们的方法可以有效学习基于视觉的通用操作策略,适用于具有不同物理特性的广泛任务 - 在插入任务中,先前的工作使用了基于模型的方法(Tang et al., 2016; Jin et al., 2021)和带有被动顺应性的末端执行器工具机制(Morgan* et al., 2021; Su et al., 2022)
这些方法通常依赖于无感知的状态模型或需要特定任务的开发,限制了鲁棒性和适应性
另一种方法涉及在多阶段流水线中使用视觉伺服来将机器人手臂与目标对齐,然后使用搜索原语进行插入(Spector et al., 2022; Chang et al., 2024; Song et al., 2015)。它们同样面临特征可靠性和对齐精度的挑战
相比之下,伯克利的方法采用了更紧密的感知-动作回路。它以闭环方式学习任务相关的视觉特征和视动策略,对于许多反应性高精度任务至关重要
从控制的角度来看,学习的策略可以被视为输出反馈控制的一个实例(Astrom and Murray,2008) - 本文中还讨论了一些动态操作任务(Mason and Lynch, 1993)。Kormushev etal. (2010) 利用动作捕捉系统和动态运动原语(Ijspeert et al., 2013)学习如何在平底锅中翻动物体。然而,HIL-SERL系统直接使用像素输入,消除了对精确动作捕捉系统的需求,同时实现了显著更高的成功率
Fazeli et al. (2019) 提出了一种学习方法,以准动态方式将积木从积木塔中推出。然而,HIL-SERL使用鞭子动态地移除积木,这是一项更具挑战性的任务,需更复杂的控制策略。此外,虽然已有关于柔性物体操作的研究,例如电缆布线(Luo et al., 2024b; Jin et al., 2019)、追踪或解缠(Viswanath et al., 2023;Shivakumar et al., 2023; Viswanath et al., 2022),但HIL-SERL论文中的正时皮带装配任务要求两个手臂之间在反应性和精确性上的协调,以动态调整张紧器和正时皮带。此任务在本质上与之前关于电缆操作的工作不同且更具挑战性
1.2 人工参与的强化学习系统
1.2.1 问题陈述与系统概述
机器人强化学习任务可以通过一个来定义,其中
- 是状态观测(例如,结合机器人的本体状态信息的图像)
- 是动作(例如,期望的末端执行器扭转)
- 是初始状态的分布,是依赖于系统动态的未知且可能是随机的转移概率
- 而是奖励函数,编码任务
- 最优策略是最大化奖励的累计期望值的策略,即,其中期望是通过关于初始状态分布、转换概率和策略
在实践中,策略通常建模为由神经网络参数化的高斯分布
为了实现机器人任务的强化学习算法,必须仔细选择合适的状态观察空间和动作空间。这涉及选择正确的相机、固有感知状态和相应的机器人低级控制器的组合
- 对于所有的任务,他们采用稀疏奖励函数,该函数使用训练过的分类器对任务是否成功做出二元决策
- 在这种设置中,优化目标旨在最大化每条轨迹的成功概率。理想情况下,在收敛时,策略应在每次尝试中都能成功
具体而言,他们构建的核心基础RL算法是RLPD(Ball等,2023,即Efficient online reinforcement learning with offline data),选择它是因为其样本效率和结合先验数据的能力
在每个训练步骤中,RLPD在先验数据和策略数据之间均等采样以形成一个训练批次(Song等,2023)
然后,它根据各自损失函数的梯度更新参数化Q函数和策略的参数
其中,是一个目标网络,而actor的损失函数则是使用带有自适应调整权重的熵正则化(Haarnoja et al., 2018)
总之,HIL-SERL系统由三个主要组件组成:actor进程、learner进程以及位于learner进程内部的重放缓冲区replay buffer,所有组件都以分布式方式运行,如下图所示(定义为图2)
- 左下角所示的actor process通过在机器人上执行当前策略与环境进行交互,并将数据发送回重放缓冲区
The actor process interacts with the environment by executing the current policy on the robot and sends the databack to the replay buffer - 左上角所示的环境设计为模块化,允许灵活配置各种设备。这包括支持多摄像头、集成像SpaceMouse这样的输入设备用于遥操作,以及能够使用不同类型控制器控制可变数量的机器人手臂
此外,需要实现一个奖励函数来评估任务的成功,该函数通过人类示范离线训练「即A implemented reward function is required to assess the success of a task, which is trained offline using human demonstrations,相当于人类的示范作为机器人的模仿学习目标」
在actor进程中,人类可以通过使用SpaceMouse介入机器人,从而接管RL策略对机器人的控制(相当于人类干预Human Intervention) - 如右下角所示,HIL-SERL系统采用两个重放缓冲区
一个用于存储离线人类示范,称为示范缓冲区,通常在20-30的范围内(即one to store offline human demonstrations, called the demo buffer, usually on the range of 20-30)
另一个用于存储在线策略数据,称为RL缓冲区(the other one for storing the on-policy data, called the RL buffer)
学习者进程从示范和RL重放缓冲区中等量采样数据,使用RLPD优化策略,并定期将更新的策略发送给actor进程
1.2.2 系统设计:ResNet、基于人类演示设计二元奖励函数、夹持器控制
为了开发这样一个能够在现实世界中执行样本高效策略学习的系统,他们做出了以下设计选择
- 预训练视觉骨干网络
为了提高训练过程的效率,他们利用预训练的视觉骨干网络来处理图像数据。虽然这种方法现在已经成为计算机视觉中为了实现稳健性和泛化能力的常见做法(Radford等,2021;Dosovitskiy等,2021;Kolesnikov)等人,2020)
但在强化学习中,这种处理方式提供了额外的好处,如优化稳定性和探索效率(Yang 和 Wang,2019;Du 等人,2020),使这种方法在现实世界的机器人强化学习训练中尤为有利
神经网络架构如上图右上角所示 使用相同的预训练视觉骨干处理来自摄像机的多张图像
具体来说,他们利用了一个在 ImageNet(Deng 等人,2009)上预训练的 ResNet-10 模型(He 等人,2015)来生成输出嵌入。这些嵌入随后被连接起来并进一步与Encoder处理过的本体感知信息(Proprioceptive State)整合(通过MLP整合),从而促进更高效和更有效的学习过程 - 奖励函数
强化学习系统的一个关键方面是奖励函数,它用于指导学习过程并确定策略的质量。虽然之前有利用奖励塑形(reward shaping)来加速学习过程的研究(Ng等人,1999;Florensa等人,2018;2017),但这种过程往往是任务特定的,且设计耗时。在一些复杂任务中,进行这样的奖励塑形根本不可行
好在他们发现,使用稀疏奖励函数,结合人类演示和修正,为各种任务提供了一种简单而有效的设置
具体来说,他们收集离线数据,并为每个任务训练一个二元分类器(binary classifier),该分类器仅在任务完成时给予正奖励,否则为零 - 下游机器人系统
为了适应策略学习过程,他们对下游机器人系统做了一些特别重要的设计选择。为了促进空间泛化,他们在相对坐标系中表示机器人的本体感觉状态,允许自我中心的表述
本质上,在每个训练回合的开始,机器人的末端执行器的位置在工作空间的预定义区域内均匀随机化
机器人的本体感觉信息被表达为相对于末端执行器初始姿态的框架;策略的动作输出是相对于当前末端执行器的框架。这一过程模拟了在相对于末端执行器附加的框架中观察时物理移动目标。因此,即使物体移动或在我们的一些实验中,在情节中途被干扰,策略也能成功
对于涉及接触的任务,在实时层使用具有参考限制的阻抗控制器以确保安全,如(Luo et al.,2024a)所述「For tasks involving dealing withcontact, we use an impedance controller with reference limiting in the real-time layer to ensure safety asin (Luo et al., 2024a)」
对于动态任务,直接在末端执行器框架中指令前馈扭矩以加速机器人手臂,尽管它不执行围绕加速度的闭环控制,他们发现这种简单的开环控制对于考虑的任务是足够的「For dynamic tasks, we directly command feed forward wrenches in the end-effector frame to accelerate the robot arm, while it doesn’t perform closed-loop control around acceleration, we foundthis simple open-loop control to be sufficient for considered tasks」 - 夹持器控制
对于涉及夹持器控制的任务,他们采用单独的价值网络来评估离散抓取动作
For tasks involving the control of grippers, we employ a separate critic network to evaluate discrete grasping actions
尽管这种方法最初可能看起来像是额外的开销或有些不常规,但在实践中已被证明是非常有效的,特别是当结合人类演示和纠正时
在本文考虑的复杂任务中,夹持器动作的离散性使得用连续分布来近似它们更加具有挑战性。通过使用离散动作,他们简化了训练过程,并提高了强化学习系统的整体有效性
具体来说,他们在这些任务中解决了两个独立的MDP
其中和分别是连续和离散动作空间
它们都接收来自环境的相同状态观测,如图像、本体感受、夹持器状态等
离散动作空间包含所有可能的离散动作
对于单个夹持器,这些动作是“打开”、“关闭”和“保持”。如果涉及两个夹持器,动作空间扩展到种组合,考虑到每个夹持器可以采取的所有可能动作
对于的critic更新遵循标准的DQN实践(Mnih etal.,2013),并通过一个额外的目标网络来稳定训练,具体如下
其中,是目标网络,可以通过使用当前网络参数进行Polyak平均获得(van Hasselt et al.,2015)
在训练或推理时,他们首先从策略中查询连续动作,然后通过对critic的输出取argmax来查询critic 中的离散动作;最后我们将连接的动作应用于机器人「At training or inference time, we first query the continuous actions fromthe policy in 1, and then query the discrete actions from the critic in 2 by taking the argmax over thecritic’s output; we then apply the concatenated actions to the robot.」
1.2.3 人工参与的强化学习——Human-in-the-Loop Reinforcement Learning
在RL中,状态/动作空间的大小、任务时间范围或它们的组合的增加,会导致学习最优策略所需样本数量的成比例增加;最终达到一个阈值,使得在现实世界中训练强化学习策略变得不切实际
- 为了应对现实世界机器人强化学习训练中的这一挑战,他们结合了人工参与反馈来指导学习过程,以帮助策略更有效地探索
- 这点还挺像ChatGPT中的RLHF的,即由于奖励函数不太好设计,故通过引入基于人类偏好选择下的排序数据训练RM
详见此文:ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT
具体而言,人类操作员在训练期间监督机器人,并在必要时提供纠正动作,如图2所示(或下图所示),对于从时间步到的自主展开轨迹,人类可以在任何时间步进行干预,其中
在干预期间,人类可以控制机器人最多步,在单个轨迹中可以发生多次干预,如下图左下角中的红色段所示。当人类干预时,其动作会应用于机器人,而不是策略的动作
- 他们将干预数据存储在演示和RL数据缓冲区中「We store theintervention data in both the demonstration and RL data buffer」
- 然而,他们仅将策略的转换(即干预前后的状态和动作)添加到RL缓冲区中
we add the policy’s transitions(i.e., the states and actions before and after the intervention) only to the RL buffer
这种方法已被证明在提高策略训练效率方面是有效的
实际上,这种干预在某些情况下至关重要,例如当策略导致机器人进入不可恢复或不理想的状态,或者当它陷入局部最优状态而没有人类帮助将需要大量时间来克服时
这个过程类似于HG-DAgger(Kelly等人,2018),当策略表现不佳时,人类接管机器人的控制以收集数据,但他们的方法使用这些数据通过强化学习而不是监督学习来优化策略,类似于Luo等人2023「Rlif: Interactive imitation learning as reinforcement learning」
且在他们的设置中,人工操作员使用SpaceMouse 3D鼠标为机器人提供纠正动作。在训练过程的开始阶段,人类更频繁地进行干预以提供纠正动作,随着策略的改进逐渐减少干预频率
根据他们的经验,当人工操作员发出具体的纠正指令而在其他情况下让机器人自行探索时,策略改进得更快
1.2.4 训练过程
- 首先,他们选择最适合任务的摄像头。腕部摄像头由于其提供的自我中心视角,特别有助于学习策略的空间泛化
然而,如果仅靠腕部摄像头无法提供环境的全景视图,他们还会放置几个侧面摄像头
对于所有摄像头,进行图像裁剪以聚焦于感兴趣的区域,并将图像调整为128x128,以便神经网络处理(如图2即下图右上角所示) - 接下来,收集数据以训练奖励分类器reward classifier(训练了一个二元分类器作为奖励检测器,它以手腕和/或侧面摄像机的图像作为输入,并预测当前状态是否成功完成当前任务),这是定义指导学习过程的奖励函数的关键步骤
通常,通过远程操作机器人执行任务来收集200个正数据点和1000个负数据点。这大约相当于10个人类轨迹,假设每个轨迹大约需要10秒。使用在补充代码中详细介绍的数据收集管道,通常需要大约5分钟来收集这些数据点
此外,他们可能会收集额外的数据来解决奖励分类器的假阴性和假阳性问题。经过训练的奖励分类器通常在评估数据集中的准确率超过95% - 然后,收集20-30条人类演示解决任务的轨迹,并用它们来初始化离线演示重放缓冲区(offline demo replay buffer)
对于每个任务,要么编写机器人复位动作脚本,要么让人工操作员在每个轨迹开始时手动复位任务,例如USB插拔任务 - 最后,开始策略训练过程。在此阶段,如果有必要,可以向策略提供人工干预(human interventions),直到策略收敛
还需要注意的是,应该避免持续提供导致任务成功的长时间稀疏干预。这种干预策略会导致价值函数的过高估计,特别是在训练过程的早期阶段,这可能导致不稳定的训练动态
1.3 实验结果
1.3.1 主板组装任务:内存插入、SSD组装、USB插入、电缆夹紧
主板组装任务包括四个子任务:将RAM卡插入其匹配的插槽,将PCI-E SSD安装到主板上,拿起悬空的USB电缆并插入插槽,然后将USB电缆固定在紧密的夹子中
- 内存插入
在此任务中,机器人需要将内存卡插入到匹配的插槽中
该过程涉及两个主要步骤:
首先,需要将内存卡与插槽两侧的狭窄开口对齐,然后以适当的力进行细致的向下运动,将内存卡插入插槽。如果内存卡完全插入插槽而不触发锁定机制,便于轻松复位,则任务被视为成功。如果需要,可以在执行训练的策略后施加额外的向下力以将内存卡锁定到位
此任务具有挑战性,因为施加稍微过大的力会导致内存卡在夹持器内倾斜,从而导致失败,而施加不足的力可能导致内存卡未正确插入插槽。假定内存卡已被机器人预先抓取,但也会定期将其放回夹具并重新抓取,以引入抓取变化 - SSD 组装
在此任务中,机器人需要将 SSD 的一侧插入其匹配的插槽中,然后将另一侧放置在主板上的固定装置上。如果 SSD 的两侧都正确地插入到对应的部分中,则任务被认为是成功的
该任务最初需要一种轻柔但精确的插入策略,以避免损坏接触针脚,然后进行另一种精确的运动以将另一侧与支撑装置对齐。假设 SSD 已经被机器人预先抓取,尽管我们也会定期将其放回固定装置并重新抓取,以引入抓取的变化 - USB 接头抓取插入
在此任务中,USB 线缆被随意放置在桌面上,机器人需要抓住 USB 接头部分,将其插入相应的插槽并释放夹持器。如果 USB 接头完全插入插槽并释放夹持器,则任务成功。困难在于 USB 线缆初始放置的多样性以及不确定性 且,抓取姿势上,策略必须学习在插入过程中考虑这种不确定性。例如,如果执行了不合适的抓取,策略可能需要释放物体并重新抓取,以获得更好的抓取姿势
且,并偶尔将其从机械手中强制移出以模拟不良的抓取姿态,策略也能通过释放连接器并重新抓取来适应,从而获得更好的插入姿态
且,这些稳健的行为通常难以通过模仿学习方法实现,因为它们缺乏这种自主探索和从其行动结果中学习的机制
而这一切,不就是先进技术所带来的灵活性、抗干扰性,以及为达目的想尽办法的智能么?确实是伟大的智能化时代 - USB电缆夹紧
该任务假设USB电缆已经插入主板,机器人负责拾起电缆的剩余部分并将其插入紧密配合的整理夹中。如果USB电缆完全插入夹中,则任务被视为成功。困难在于可变形USB电缆的多样性以及紧密插入阶段的挑战 - 整体组装
作者还通过将上述四个子任务串联在一起,执行了整个组装任务,使用脚本化的动作在子任务之间进行过渡
1.3.2 与各路其他方法的PK,包括扩散策略
对于每个任务,作者报告了成功率、周期时间和训练时间。训练时间包括所有脚本化运动、策略展现、预期停止以及在单个NVIDIA RTX 4090 GPU上进行的板载计算。除非另有说明,所有结果均基于100次评估试验。在这些评估中,通过脚本化的机器人运动或人工重置来随机化初始状态。评估协议可以在补充材料中找到
本文的一个核心论点是,HIL-SERL优于基于人类远程操作的模仿学习方法。为了证实这一点,公平地在相同设置下比较相关的模仿学习方法是至关重要的。正如(Ross et al.,2011)所指出的,简单的模仿学习方法常常遭受错误累积问题。DAgger及其变体(Ross et al.,2011;Kelly et al.,2018)通过引入人类校正来通过监督学习改进策略,从而解决了这个问题
他们的方法也利用了人类校正,但却是通过基于任务特定奖励的强化学习来优化策略。因此,通过使用相同数量的人类演示训练一个使用HG-DAgger(Kelly et al.,2018)的基线来将HIL-SERL的方法与模仿学习进行比较,具体而言
- 首先使用行为克隆(BC)预训练一个基础策略,使用与HIL-SERL的方法提供的等量的离线人类演示
- 然后,运行这个策略并收集人类专家的修正,以使得试验和干预的总量与RL训练相匹配
具体来说,运行相同数量的集数作为HIL-SERL的方法,并旨在提供每集相当数量的干预。这个比较在所有任务中执行,除了积木抽取和物体翻转,这些任务中干预是具有挑战性和不受欢迎的
对于这些任务,收集50和200个离线演示并训练BC策略作为基线。这提供了比HIL-SERL的方法显著更多的演示,HIL-SERL的方法通常只需要20-30个演示
另在HIL-SERL所有的实验中,使用成功率和周期时间作为主要指标来比较不同的方法,,且为了进一步验证HIL-SERL方法的有效性,作者还报告了随时间的干预率,显示HIL-SERL的策略逐步改进,减少了干预的需要。理想情况下,干预率趋向于零,表明策略可以自主执行
具体如下图所示
「此图展示了HIL-SERL和DAgger在几个代表性任务中的成功率、周期时间和干预率,显示为20个回合的运行平均值
对于HIL-SERL,成功率在训练过程中迅速增加,最终达到100%,而干预率和周期时间逐渐减少,最终干预率达到0%(如下图第二行、第三行所示)
对于HG-DAgger,成功率在训练回合中波动,并不随着训练的进行而必然增加。由于干预频繁发生,导致成功结果,真实的策略成功率可能低于曲线所示。此外,干预率并没有随着时间一致地减少,这表明策略并没有稳步改善。这也反映在周期时间上,没有显示出改善,因为DAgger缺乏提升性能的机制,超出所提供的训练数据」 也进一步说明了HIL-SERL在较少人类监督的情况下取得了更好的性能,包括之所以优于HG-DAgger,主要得益于RL的关键优势 - 实验结果可以在上图图4和下表表1a中找到
首先,如上表表1所示,HIL-SERL在几乎所有任务中,在1到2.5小时的真实世界训练中实现了100%的成功率。这比HG-DAgger基线有显著的改进
且如下表所示
从零开始的RL,没有任何演示或纠正,在所有任务上成功率为0%(即如上表倒数第三列的HIL-SERL no demo no itv所示)
为了验证在线人类纠正的重要性,作者将SERL的离线缓冲区中的演示数量增加了十倍,从通常的20增加到200(即如上表倒数第二列的HIL-SERL no itv所示)
然而,没有任何在线纠正,这种方法的成功率显著低于HIL-SERL,包括在复杂任务如汽车仪表板组装中的完全失败(0%成功率)。这证实了在线纠正在促进策略学习中的关键作用。这些结果证实了离线演示和策略学习指导中在策略学习中的关键作用,尤其是对于需要持续反应行为的复杂操作任务
对于物体翻转(Object Flipping)任务,他们使用20和200次演示训练了BC策略。这两个BC策略的结果非常相似,成功率分别为47%和46%,尽管演示次数增加了十倍。这表明仅仅模仿人类演示不足以解决这个任务,尽管它在很大程度上是开环的
另一个需要考虑的重要方面是HIL-SERL的方法如何处理演示与其他方法相比。为了与提到的基线进行比较,作者为每个任务收集了200次演示。请注意,这个数字远远大于HIL-SERL方法中的离线演示数量,通常在离线重播缓冲区中大约为20-30次
对于Residual RL和IBRL,作者使用这些演示训练了行为克隆(BC)策略,以输入他们的算法管道
总体而言,HIL-SERL的方法在很大程度上始终优于这些基线,如上表表1所示。这可以解释为:残差RL依赖于预训练的BC基础策略来促进学习过程。然而,这种方法对于需要精确操作的任务(如汽车仪表板组装或RAM插入)可能会出现问题。在这些场景中,模仿学习方法,包括BC,通常表现不佳。结果,RL策略学习过程可能会经历重大失败。对于IBRL,actor是BC策略和RL策略的混合,使得行为更像“BC样”
对于DAPG,作者将这200次演示存储在一个单独的缓冲区中,并将策略动作正则化到它们
此外,为了与扩散策略(Chi等,2024)进行比较,作者为每个任务训练了使用200个示范的策略,这远远超过了HIL-SERL方法中离线重放缓冲区中可用的20个示范
在RAM插入和汽车仪表板面板任务中,扩散策略的成功率分别为27%和28%。在物体翻转任务中,成功率为56%。这一表现明显低于我们的方法,甚至不及HG-DAgger基线。这一结果并不令人意外,因为扩散策略的主要优势在于学习更具表现力的策略分布,以准确“记忆”机器人运动——对比的好啊。然而,这些任务需要更多“闭环”反应行为,例如持续的视觉伺服以纠正运动误差。因此,扩散策略在学习表现力策略分布方面的优势不一定能在这些任务中带来更好的表现 - 另一个需要考虑的重要方面是周期时间,即完成任务所需的时间。平均而言,HG-DAgger 策略的平均周期时间为 9.6 秒,而HIL-SERL的方法平均周期时间为 5.4秒。这表明提高了 1.8 倍的速度
这种改进是预期的,因为模仿学习方法缺乏处理人类演示次优性的机制。相比之下,强化学习(RL)可以利用动态规划来优化折扣奖励总和。对于折扣因子,这种方法鼓励策略更快地获得奖励,从而导致比模仿人类演示所实现的周期时间更短
在这些实验中,作者注意到HIL-SERL的方法在具有截然不同物理特性的任务中表现出通用性和有效性,生成了适合每个任务特定要求的开环和闭环策略
比如对于精确操作任务,如组装正时皮带或插入 RAM 条,策略学习将任务相关的视觉特征与适当的扭转动作关联起来。它执行连续的视觉伺服行为,实时响应流媒体观察并调整其动作直到达到目标
相比之下,对于像叠叠乐抽取和物体翻转这样的任务,策略通过交互学习预测其动作的潜在结果
1.3.3 对实验结果的反思与分析:RL为何强于模仿学习
HIL-SERL性能的一个关键方面是其高可靠性,在所有任务中均实现了100%的成功率。作者认为这种可靠性源于强化学习固有的自我纠正能力,通过策略采样使代理能够从成功和失败中不断学习和改进
- 相比之下,模仿学习方法,包括交互式方法,缺乏这种自我纠正机制,因此在相同数据量下实现相当的性能要困难得多。尽管关于Q学习收敛性的理论工作已经存在(Papavassiliou 和 Russell, 1999;Bhandari等人,2018;Jin等人,2020;Yang和Wang,2019),作者的分析集中在提供对训练动态的直观理解
- 为此,作者分析了RAM插入任务,该任务需要精确的操作,并且由于X和Y方向的对称随机化,易于可视化
作者在下图图6中绘制了不同策略检查点在时间步长上的状态访问次数热图,基于末端执行器的Y和Z位置
通过策略学习,作者观察到一个漏斗状形状逐渐形成,将初始状态连接到目标位置。随着空白区域被填满,这个漏斗变得更加明确,并在接近目标时变窄,表明策略的信心和精确度提高。随着时间推移,质量集中在可能成功的区域
然后作者引入了“关键状态”的概念,定义为Q函数方差较大的状态,即使用以下方法计算该方差:
对于每个数据点及其相关的策略检查点,作者在每个状态下向动作(归一化到[-1, 1])添加来自[-0.2, 0.2]的均匀随机噪声,并使用100个样本的蒙特卡罗采样来计算Q函数方差。方差大表明该状态对策略的成功至关重要,因为采取不同的动作会导致显著不同(通常更小)的Q值
上图图6还显示了不同状态下Q值及其方差的热图。这些图清楚地展示了策略形成一个漏斗,其中访问最多的状态获得更高的Q值和更高的Q值方差。这表明策略正在加强该区域,有效地通过动态规划将重要状态与导致高Q值的动作连接起来
相比之下,HG-DAgger在相同任务上的状态访问计数的热图(上图图6的第四行)显示出分布更加稀疏。与RL情况相比:漏斗形状不太明显,更平坦,质量更分散,状态访问更均匀
这是因为RL可以自主探索,并使用任务奖励指导的动态规划,而DAgger只能围绕当前策略进行探索。因此,为了达到类似的性能,DAgger可能需要显著更多的示范和修正,并且需要人类操作员仔细关注以确保数据质量。这种在漏斗内的稳定化行为已在基于状态的灵巧操作和运动规划中进行研究(Burridge等,1999;Tedrake等,2010)
然而,HIL-SERL的方法不同之处在于,HIL-SERL直接利用感知输入,并使用RL探索自主形成漏斗。在最优控制中,一个类似的概念是开发使用局部反馈围绕标称轨迹进行稳定的控制器「An analogousconcept in optimal control is the development of controllers that stabilize around nominal trajectories using local feedback (Astrom and Murray, 2008).」
在上面的案例中,演示和修正可以被视为"标称轨迹",RL 方法围绕这些轨迹开发稳定化的漏斗
1.4 现存工作的局限性与不足
- 首先,HIL-SERL的方法可以作为生成高质量数据以训练机器人基础模型的有效工具(Brohan etal.,2023b;a;Collaboration et al.,2024;Team et al.,2024;Kim et al.,2024)
鉴于每项任务所需的训练时间相对较短且训练过程主要是自动化的,这一框架可用于开发各种技能。随后,可以通过执行收敛的策略来收集数据,然后将其提炼到这些通用模型中 - 其次,尽管当前的训练时间相对较短,但每项任务仍需从头开始训练。可以通过预训练一个价值函数来进一步减少这一时间,该函数包含解决不同任务的通用操作能力,适用于不同的机器人化身
这个预训练的价值函数可以快速微调以解决特定任务 - 当然,作者也发现了他们方法的一些局限性。尽管他们成功地解决了各种具有挑战性的任务,但该方法是否可以进一步扩展到显著更长时间跨度的任务仍不确定,在这些任务中,样本复杂性问题变得更加突出
然而,这一挑战可能通过改进的预训练技术或采用自动将长时间跨度任务分割为一系列较短子任务的方法(如视觉-语言模型)来缓解
还需要注意的是,他们在实验中没有进行广泛的随机化,也没有测试该方法在非结构化环境中的泛化能力。本文的主要重点是证明该方法可以是通用的,在获取广泛的操作技能方面具有高性能
作者相信,通过延长策略的训练时间以达到所需的随机化水平(如Luo等人,2021年),可以解决随机化问题。此外,通过结合在大规模多样化数据集上预训练的视觉基础模型,可能解决泛化问题
作者希望,这项工作能为使用强化学习解决机器人操作问题铺平道路,实现高性能并最终将其部署到现实世界中
第二部分 HIL-SERL执行相关人物所用的硬件配置及训练细节
2.1 主板组装任务
2.1.1 RAM 插入
下图图8展示了主板组装任务的硬件设置,包括机器人、相机位置和任务安排
为了聚焦于场景中与任务相关的部分,故作者裁剪了图像,如下图图9所示(用作策略输入的相机样本输入图像)
下表则是RAM插入任务的策略训练细节
2.1.2 SSD 组装
同样的,为了聚焦于场景中与任务相关的部分,他们裁剪了图像,下图便是用作策略输入的摄像机的示例输入图像
2.1.3 USB抓取-插入
为了聚焦于场景中与任务相关的部分,他们照例裁剪了图像,如下图所示是用于策略输入的相机采集的样本输入图像
下表则是该任务策略训练的更多细节
2.1.4 电缆夹持
为了聚焦于场景中与任务相关的部分,他们照例裁剪了图像,如下图所示是用于策略输入的相机采集的样本输入图像
// 待更