“computer use”赛道战火将起,哪个模型最强,这个评估平台可以了解一下
原创 ully AI工程化 2024年10月29日 11:53 北京
随着 anthropics 最新模型的发布,在“computer use”领域的产品一下子变得多了起来,那如果想要上手体验,哪个最方便使用且能代表当前最佳体验呢,笔者推荐 open-interpreter,它可以说是这一领域的探路者,笔者也曾多次介绍过这一工具(Open Interpreter迎来更新,更炫能力上线!),当前 star 量也高达 54k,随着这一赛道被大众所关注,它也将会是最为受益的项目之一。
AI工程化
未来将会有更多模型进入这一领域,那么将如何判断哪种模型更适合在“computer use”场景使用呢?
这里介绍一个专门用于评估这一领域表现的工具——OSWorld(https://os-world.github.io/)。
,时长00:17
OSWorld 是论文“OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments”提出的,它是一个专为多模态代理设计的真实计算机环境,支持在多种操作系统(如 Ubuntu 、Windows 和macOS)上进行开放任务的评估。其核心目的是提供一个可复现、可扩展的平台,以全面测试多模态代理在真实世界任务中的表现。
它涵盖了 369 个真实世界计算机任务,每个任务都配有详细的初始状态设置和自定义评估脚本,其中最新的claude模型也在它的榜单之中,不出意外拔得头筹,比第二名openAI优势明显。
参考资料
[1]
示例: https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo