OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback

本文是LLM系列文章,针对《OpenWebVoyager: Building Multimodal Web Agents via Iterative
Real

OpenWebVoyager:通过迭代式现实世界探索、反馈和优化构建多模态Web代理

摘要

大型语言和多模态模型的快速发展引发了人们对使用GPT4o等专有模型开发能够处理网络导航等现实场景的自主代理的浓厚兴趣。尽管最近的开源努力试图让代理具备探索环境的能力,并随着时间的推移不断改进,但他们正在合成环境中构建纯文本代理,在这种环境中,奖励信号是明确定义的。这些智能体很难推广到需要多模态感知能力且缺乏地面真实信号的现实环境中。本文介绍了一个开源框架,旨在促进多模态web代理的开发,该代理可以自主进行现实世界的探索并自我改进。我们首先通过模仿学习训练基础模型,以获得基本能力。然后,我们让代理探索开放网络并收集其轨迹的反馈。之后,它通过学习由另一个通用模型判断的表现良好的轨迹来进一步改进其政策。这种探索反馈优化循环可以持续几次迭代。实验结果表明,我们的web代理在每次迭代后都能成功地自我改进,在多个测试集上表现出强大的性能。

1 引言

2 相关工作

3 方法

4 实验

5 结论

本文探讨了如何通过迭代探索、反馈和优化来构建多模态网络代理。我们采用idefi

猜你喜欢

转载自blog.csdn.net/c_cpp_csharp/article/details/143513285