在 CNCC2024 大会上,智谱推出了 GLM 第一个产品化的智能体(Agent)——AutoGLM,只需接收简单的文字/语音指令,它就可以模拟人类操作手机,进而帮你:
另外,AutoGLM 也可以对网页进行操作,比如“检索知识图谱最新的学术期刊发表内容且只看北大核心”。
AutoGLM 的出现,让 AI「phone use」与网页操作不再是设想。
日前,智谱和清华团队在预印本网站 arXiv 上发布了 AutoGLM 的技术报告。
论文链接:
https://arxiv.org/abs/2411.00820
项目地址:
https://xiao9905.github.io/AutoGLM/
技术报告主要内容如下:
在开发过程中,AutoGLM 团队采用了多项先进技术,以克服基础模型在真实环境中执行任务的挑战。
在开发过程中,研究团队发现中间接口设计对于在基础智能体中解耦规划和执行(grounding)行为至关重要。通过将两者分离为不同模块,基础智能体可以从灵活性和准确性两个维度分别优化,且不会互相干扰。
通过这种方式,可以分别提高智能体的规划和执行的能力,实验显示,训练的执行模块显著提升了基于专有 LLM/LMM API 的规划器的性能。
图|VAB-WebArena-Lite 上中间界面设计实验。
他们还发现,虽然中间接口设计有助于减轻执行中的错误问题,但如何良好规划仍然是一个挑战。许多现有的智能体工作基于专有的 LLM/LMM API,其规划能力无法通过训练进一步提升。
因此,他们决定通过 RL 探索自有规划器的训练,并开发了一个自进化的在线课程 RL 框架——WebRL 来缓解 RL 面临的用户任务或专家轨迹数据不足、策略分布漂移的问题,用于从头开始训练基础智能体。
他们在 AndroidLab(即 VAB-Mobile)和常见的安卓 APP 上的高频任务中评估了 AutoGLM 的能力。
AndroidLab 是一个互动式安卓基准测试环境,支持系统性评估,涵盖了一些离线可部署的英语 APP。相比于其他如 AITW 的现有基准测试,其互动性允许对安卓智能体进行更具实际意义的评估并通过强化学习进行改进。他们评估了代表性的专有 LLM/LMM API、在提供的行为克隆数据上微调的开放模型以及 AutoGLM。
结果表明,AutoGLM 在 AndroidLab 上的成功率为 36.2%,在所有对比的智能体中表现最佳。
图|AndroidLab 上不同智能体的成功率。
为了测试 AutoGLM 在公共用户环境中的实际部署能力,他们还在 7 款常见的安卓 APP(包括微信、美团、淘宝、大众点评、高德地图、小红书和12306)上仔细评估了其高频任务表现。
他们为每个 APP 定制了一组测试查询,并在人类评估的全程执行轨迹中确定最终的成功率。他们的评估在安卓手机上进行,利用 Accessibility Service 应用程序反映实际的使用场景。
图|在 APP 上评估 AutoGLM 的测试查询示例。
结果显示,AutoGLM 在这些应用中的表现令人满意,尽管尚未完全解决所有任务,未完成的任务也能部分完成,从而在实际场景中为用户提供操作速度上的帮助。
图|AutoGLM 在 APP 上的人工评估成功率。
他们使用 VAB-WebArena-Lite 和在线人类评估数据集 OpenTable 进行了交互式基准测试,在这些环境中优化训练 AutoGLM。
VAB-WebArena-Lite 是原始 WebArena 的一个精简版,包含 165 个任务,并对答案和判定功能进行了人工验证。其设计意图是加速 WebArena 上的评估过程并确保评判的准确性。
他们评估了代表性的专有 LLM/LMM API、开放模型、最近的智能体框架以及 AutoGLM。实验结果显示,AutoGLM 在该基准测试上显著提升了表现,缩小了自主智能体与人类之间的性能差距。
图|不同智能体在 VAB-WebArena-Lite 上的成功率。
与 Agent Q 的评估方法类似,他们也在真实网站 OpenTable 上对 AutoGLM 进行了测试。由于 Agent Q 的数据集未公开,研究团队根据其论文中的示例(“为 4 人预订 2024 年 5 月 22 日晚上 7 点在 Cecconi's 的餐厅座位”)重新构建了一个包含 200 个样本的测试集,并在真实的 OpenTable 网站上进行了人类评估。
结果显示,AutoGLM 在此真实世界场景中超越了 GPT-4o 和 Agent Q。
图|不同智能体在 OpenTable 上的成功率。
未来,AutoGLM 将进一步完善其模型和应用场景,加速智能助手在数字化生活中的普及。