OpenVLA-首个开源视觉语言动作大模型

企业开发 2024-11-01 23:30:29 阅读次数: 0

官网：https://openvla.github.io/

现在大模型已经卷到了机器人领域。在视觉语言模型（VLM）的基础上，加入机器人的动作（Action) 这一模态，视觉语言动作大模型（VLA）是目前大模型应用于机器人的流行方法。

在VLA这个领域，比较著名的工作当数谷歌的RT系列，有RT-1， RT-2, RT-X等等。但是RT系列没有开源代码，想要复现还是有难度的。最重要的是，没有提供fine-tune的方法，无法根据自己的需要进行微调。

OpenVLA有两大显著优势：

1 开源
2 可以进行高效fine-tune

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/leo0308/article/details/143128560

OpenVLA-首个开源视觉语言动作大模型

复现OpenVLA：开源的视觉-语言-动作模型及原理详解

视觉语言动作大模型详解

Stable Diffusion公司发布首个大语言模型StableLM，已开源公测！

可商用！全球首个基于Falcon架构的中文大语言模型OpenBuddy开源了！

大模型「上车」关键一步：全球首个语言+自动驾驶全栈开源数据集来了

BloombergGPT: 首个金融垂直领域大语言模型

大语言模型系列-中文开源大模型

开源大语言模型完整列表

开源语言大模型的正确姿势

超越CLIP！谷歌发布首个大规模MoE架构的视觉语言模型

CogVLM与CogAgent：开源视觉语言模型的新里程碑

【具身智能】RT-2：视觉-语言-动作模型（VLA）

全球首个可商用生物医药大模型 BioMedGPT-10B 开源

SecGPT 全球首个网络安全开源大模型且可以在CPU上运行的网络安全大模型

OpenR框架深度解读 - OpenAI启发的首个开源项目提升大型语言模型推理能力

视觉大模型综述

视觉大模型~~

通用视觉大模型

视觉语言模型详解

全球首个完全开源的指令跟随大模型；T5到GPT-4最全盘点

首个开源MoE大模型Mixtral 8x7B的全面解析：从原理分析到代码解读

轻松玩转开源大语言模型bloom（一）

5个值得一试的开源大语言模型

【AI实战】开源大语言模型LLMs汇总

Stable Diffusion 母公司开源大语言模型StableLM

Falcon猎鹰：史上最强开源大语言模型

开源中文大语言模型集合【2023-06-19】

轻松玩转开源大语言模型bloom（四）

轻松玩转开源大语言模型bloom（三）

今日推荐

周排行

教你如何约女孩子的方式去理解（TCP三次握手与四次挥手）

android按压背景

【量化小讲堂-Python&Pandas系列10】如何判断一个策略的好坏？(附代码)

编程题：利用链表实现栈

盘点47条 Allegro 使用技巧，你都知道吗？

在VMware Workstation中安装CentOS

二叉树的实现

cmake安装jsoncpp

ReactNative开发城市列表页

最全前端学习资源

每日归档

2025-03-20(0)

2025-03-19(0)

2025-03-18(0)

2025-03-17(0)

2025-03-16(0)

2025-03-15(0)

2025-03-14(0)

2025-03-13(0)

2025-03-12(0)

2025-03-11(0)