字节跳动发布GR-2:一文读懂AI机器人的最新突破

字节跳动推出的第二代机器人大模型GR-2(Generative Robot 2.0)是一款具有创新学习方式的智能机器人。以下是关于GR-2的详细总结:

GR-2是什么:

GR-2是字节跳动研究团队开发的第二代机器人大模型,它通过模仿人类成长过程的训练方法学习复杂任务。在预训练阶段,GR-2通过观看大量互联网视频学习人类的日常行为模式和世界环境,然后通过微调技术提升动作预测和视频生成能力。

功能特色:

  1. 视频生成能力: GR-2能够通过输入图片和语言指令预测未来的视频,并生成相应的动作轨迹。
  2. 多任务学习与泛化: GR-2能够完成105项不同的桌面任务,平均成功率为97.7%,并在未知场景和物体上展现出泛化能力。
  3. 与大语言模型的协作: GR-2能够与大语言模型结合,完成复杂的长任务,并与人类进行互动。
  4. 环境适应性: GR-2能够鲁棒地处理环境中的干扰,并通过适应变化的环境成功完成任务。
  5. 端到端的物体拣选: GR-2能够在工业应用中进行端到端的物体拣选,准确抓取包括透明、反光、柔软物体在内的多种物体。

学习过程

  1. 预训练: GR-2的预训练阶段类似于人类的婴儿期,它在互联网的海洋中遨游,通过观看3800万个视频片段进行生成式训练。这些视频来自学术公开数据集,涵盖了人类在不同场景下(家庭、户外、办公室等)的各种日常活动。这个过程让GR-2迅速学会了人类日常生活中的各种动态和行为模式,为其后续的学习打下了坚实的基础。
  2. 微调: 在预训练之后,GR-2通过在机器人轨迹数据上进行微调,进一步提升了其动作预测和视频生成的能力。微调过程中,GR-2能够预测动作轨迹并生成视频,使其在动作预测方面有着天然的优势。只需输入一帧图片和一句语言指令,GR-2就能预测未来的视频,并生成相应的动作轨迹。

技术规格

  • GR-2身高1.75米,体重63公斤,全身共有53个自由度,单臂运动负载达3kg。
  • 新一代电池容量翻倍,续航时间延长至2小时,并支持直充和可拆卸换电方案。
  • 它搭载了新一代灵巧手,单手自由度由初代的6个增加至12个,完美复刻人手外形及尺寸,同时最大限度地模拟人手的自然运动。

GR-2 官方项目页面:

官网

GR-2的CALVIN基准测试

GR-2在CALVIN基准测试中的表现非常出色。CALVIN是一个针对长期语言条件机器人操作的模拟基准,GR-2在这项测试中与多种先进的基线方法进行了比较,包括RT-1、MT-ACT、HULC、RoboFlamingo和GR-1。测试结果显示,GR-2在成功率和平均任务完成长度方面超过了所有比较的基线方法,建立了新的最高标准。

具体来说,GR-2在CALVIN基准测试中的ABCD-D拆分上进行了实验,其平均长度是一个综合评估指标,显示了机器人在连续完成5项任务的序列中能够完成的任务数量。这表明GR-2在长期语言条件任务中的表现非常优秀,能够理解和执行基于自然语言指令的复杂任务序列。

这些结果不仅证明了GR-2在机器人操作任务中的高效性能,也显示了其在处理复杂、长期任务时的稳定性和可靠性。GR-2的这些能力使其在工业自动化、科研教育以及家庭服务等多个领域都具有广泛的应用潜力。

适用场景:

GR-2适用于多种场景,包括但不限于:

  1. 家庭服务: 能够完成日常家庭任务,如煮咖啡、烤面包等。
  2. 工业自动化: 在工业领域进行物体拣选和分类。
  3. 科研教育: 作为研究和教育工具,帮助学生和研究人员了解机器人技术和人工智能。
  4. 康复医疗: 辅助医疗康复过程中的某些任务。

与上一代的改进:

  1. 更高的自由度: GR-2全身共有53个自由度,单臂运动负载达3kg,能够完成更复杂的操作。
  2. 更长的续航时间: 新一代电池容量翻倍,续航时间延长至2小时,并支持直充和可拆卸换电方案。
  3. 更灵活的上肢操作: 新一代灵巧手单手自由度由6个增加至12个,能够更精准地抓取不同形状和重量的物体。
  4. 更强劲的运动控制: 新版本的执行器为GR-2提供更强劲的动力与更精准的运动控制。
  5. 更开放的开发平台: 提供了基于主流编程语言的开发接口方案,支持多种上肢示教方式,降低开发门槛,提高开发效率

GR-2的出现预示着智能机器人应用即将迎来一个全新纪元,其技术有望在多个领域产生深远影响

猜你喜欢

转载自blog.csdn.net/qq_26303031/article/details/142970433