腿足机器人之十一- 深度强化学习
深度学习技术已经在语音、图像、视频、文本等领域应用广泛,其和强化学习的结合使得基于深度学习的大模型能力更是上升一个台阶。因而用在腿足机器人的运动中枢上也不足为奇,但是和电子化格式的语音、图像、文本而言,机器人的运动姿态涉及到真实的物理世界,要符合物理规律和宏观力学定律。
深度强化学习(deep Reinforcement learning, DRL)在机器人运动姿态上的控制数据是一个很大的难点,强化学习采用是 trial-and-error 的方式,在现实世界中收集机器人运动数据效率低下且可能存在安全问题,如果采用的是仿真环境(如MuJoCo、Gazebo等仿真平台),但和真实世界也存在较大的差距。
尽管存在上面的难度,但是深度强化学习技术还是在无人机、汽车自动驾驶,四足机器人(如ANYbotics,Swiss-Mile)上达到了产品级的运动控制表现。
机器人能力
机器人完成任务所需的核心能力分类运动和操作这两个能力,运动是指环境中的自主运动能力,而操作是指对物体的控制能力(如抓取、旋转)。
在机器人领域移动性进一步拆解为运动(Locomotion)和导航(Navigation),locomotion是指底层运动技能,如不同形态机器人(四足 / 轮式 / 无人机等)在特定环境中的基础移动能力,涉及驱动控制、运动稳定性等物理层面的实现,而导航(Navigation)是指高层路径规划,着重于环境感知、路径规划与避障策略,通常输出高层指令(如期望的质心运动状态)。
传统方法采用分层控制:导航层生成指令 → 运动层执行,而新兴研究趋势是将运动与导航的联合优化(如多模态模型),例如 MIT 的 Cheetah 机器人,其高速奔跑控制算法既包含步态生成(运动层ÿ