Agent之AutoGLM:AutoGLM(面向GUI的自主基础代理)的简介、安装和使用方法、案例应用之详细攻略
目录
AutoGLM的简介
2024年10与25日,智谱AI发布AutoGLM!AutoGLM是ChatGLM家族的最新系列模型,旨在通过图形用户界面(GUI),例如手机和网页,实现自主任务完成代理。它是一个能够自主控制数字设备的基础代理系统,专注于网页浏览器和Android系统作为代表性的GUI场景。AutoGLM整合了一套全面的技术和基础设施,创建了适合用户交付的可部署代理系统。
AutoGLM的开发带来了两个关键见解:
一是GUI控制的适当“中间接口”设计至关重要,它能够分离规划和落地行为;
二是AutoGLM采用了一种新颖的渐进式训练框架,支持自我进化的在线课程强化学习。
AutoGLM是清言app的“自动驾驶”模式哦! 它能帮你用自然语言完成手机上的各种任务,就像有个小助手在帮你操作一样。无论是网购、订餐,还是处理工作事务,AutoGLM都能轻松搞定!
文章地址:AutoGLM
视频演示地址01:https://xiao9905.github.io/AutoGLM/static/videos/android_overall_video.mp4
视频演示地址02:https://xiao9905.github.io/AutoGLM/static/videos/web_overall_video.mp4
1、特点
>> 自主性:AutoGLM能够自主完成任务,无需人工干预。
>> GUI交互:能够通过图形用户界面(GUI)与手机和网页进行交互。
>> 中间接口:设计了合适的中间接口,分离了规划和落地行为,提高了灵活性和准确性。
>> 渐进式训练:采用新颖的渐进式训练框架,支持自我进化的在线课程强化学习。
>> 高性能:在网页浏览和Android设备控制方面都取得了较高的成功率。
>> 多平台支持:目前支持网页和Android平台,未来可能支持更多平台。
AutoGLM的安装和使用方法:
AutoGLM的网页使用能力将逐步通过Qingyan Plugin提供给公众,而其在Android上的手机使用能力目前正在进行邀请内部测试(申请表链接已提供)。
T1、Web端官网测试
官网测试:智谱清言
T2、基于浏览器AI助手插件
T3、手机端下载
持续更新中……
AutoGLM的案例应用
AutoGLM在网页浏览和Android设备控制方面进行了评估:
1、网页浏览
在VAB-WebArena-Lite上实现了55.2%的成功率(第二次尝试提高到59.1%),在OpenTable评估任务中实现了96.2%的成功率。
2、Android设备控制
在AndroidLab (VAB-Mobile)上实现了36.2%的成功率,在流行的中国应用程序的常见任务中实现了89.7%的成功率。