微信扫码
与创始人交个朋友
我要投稿
“ 多模态大型语言模型(MLLM)已经取得了突破性进展,如GPT-4o和Claude3.5,这一切为开发用于桌面操作系统等以人为本的交互系统的GUI代理奠定了一个坚实的基础。对于计算机Agent而言,这意味着它需要能够完成理解当前屏幕,然后点击、打字和打开应用程序等任务,这可能有助于用户实现特定的目标。自主图形用户界面(GUI)代理有望以最通用的方式解决非常具体和高度多样化的用户查询任务,例如个人用户的数据输入、日程安排和文档创建,以及简化商业环境中的操作。 本文作者提出了Agent S,这是一种新的代理框架,可以解决上诉的众多挑战,实现像人类一样使用计算机的目标。作者介绍了一种经验增强分层规划方法。这种方法利用在线网络知识获取经常变化的软件和网站的最新信息,以及叙事记忆,以利用过去互动的高级经验。通过将复杂任务分解为可管理的子任务,并使用情景记忆进行逐步指导,Agent S不断改进其动作并从经验中学习,实现了适应性强、有效的任务规划。”
项目主页-https://www.simular.ai/agent-s
代码链接-https://github.com/simular-ai/Agent-S
论文链接-https://arxiv.org/pdf/2410.08164
01-Agent基础知识
广义来讲,Agent是任何能够感知其环境、推理并对其采取行动的智能体。对于计算机Agent而言,这意味着它需要能够完成理解当前屏幕,然后点击、打字和打开应用程序等任务,这可能有助于用户实现特定的目标。计算机Agent是利用了多模态技术,通过大语言模型和视觉模型来更好的理解图像和文本。
02-Agent S背景简介
自从鼠标被发明以来,它一直由人类控制,用于与计算机交互。但真的必须如此吗?自主图形用户界面(GUI)代理有望以最通用的方式解决非常具体和高度多样化的用户查询任务,例如个人用户的数据输入、日程安排和文档创建,以及简化商业环境中的操作:通过使用鼠标和键盘的直接执行UI交互。
此外,随着对持续手动交互需求的降低,这些代理不仅提高了效率,还提高了可访问性,使得残疾人能够以新的、变革性的方式进行交互。多模态大型语言模型(MLLM)已经取得了突破性进展,如GPT-4o和Claude3.5,这一切为开发用于桌面操作系统等以人为本的交互系统的GUI代理奠定了一个坚实的基础。
本文作者提出了Agent S,这是一种新的代理框架,可以解决上诉的众多挑战,实现像人类一样使用计算机的目标。首先,为了增强GUI代理在解决具有特定领域知识的多样化、长期桌面任务方面的能力,作者提出了一种经验增强的分层规划方法。这种方法利用存储在叙事记忆中的在线网络知识和过去的经验,将复杂的长期任务分解为可管理子任务的结构化计划。在线Web知识提供有关特定应用程序的最新外部知识,使代理能够适应频繁变化的软件和网站。叙事记忆包含来自过去互动的高级抽象任务体验,为主体提供上下文理解,从而进行有效的任务规划。代理监控任务完成进度,在每个子任务执行期间,它从情景记忆中检索详细的、循序渐进的子任务经验,以动态优化其动作并不断提高其规划能力。成功的子任务和完整的任务体验会被评估、总结并存储在情景和叙事记忆中,以实现持续改进。
此外,作者引入了一个特定的以语言为中心的代理计算机接口(ACI)作为抽象层,用来提高基于MLLM的GUI代理的基础、安全性和效率。ACI通过以下方式定义了一种交互范式:1)使用视觉输入来理解环境变化的双输入策略,以及用于精确元素基础的图像增强可访问性树;2) 基于语言的基元(例如,点击(元素id))的有界动作空间,有利于MLLM常识推理,并以正确的时间分辨率生成环境转换,以便代理观察即时和任务相关的环境反馈。
Agent S是一个新的Agent框架,它将三种主要策略集成在一个闭环链路中,用来解决复杂的基于GUI的操作系统控制任务:体验增强的分层规划、叙事和情节记忆的持续更新,以及用于在GUI上进行精确感知和操作的Agent计算机界面。经验增强的分层规划允许Agent S将复杂的任务分解为可管理的子任务。这使得高级规划和低级执行都可以从外部基于网络的经验和内部特定任务的经验中汲取灵感。在叙事和情景记忆中存储和检索自我评估的任务体验的持续过程使Agent S能够随着时间的推移而改进,并适应开放世界桌面环境的变化。ACI通过提供包含所有有效GUI元素的视觉增强可访问性树观察,并将代理选择的动作约束到有效动作的有界离散空间来确保接地。
这些任务通常用于日常生活或涉及知识密集型的专业应用程序中,这些应用程序更多地受益于Agent S的检索增强能力。Claude-3.5-Sonnet和GPT-4o在大多数任务中都优于基线版本。Claude-3.5-Sonnet在“日常”和“专业”任务中甚至比GPT-4o表现更好。结果表明,与基线方法相比,Agent S在处理各种复杂任务方面的能力得到了增强。
结果如上表所示,从网络知识的普遍经验中学习,使得Agent S能够在广泛的任务中制定明智的计划,并产生最显著的影响。从叙事和情节记忆中学习与网络检索有效地协同作用,结果详细说明了它们的消融如何影响主体处理复杂任务的能力,强调了体验式学习的价值。这些结果表明,每个组件在增强代理的领域知识方面都起着至关重要的作用。删除所有三个组件(不包括全部)会显著降低性能,这表明了从设计经验中学习的重要性。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-23
Pixtral Large:128K 上下文窗口 + 多模态融合,开启智能新视界!
2024-11-20
基于GPU的ANN检索
2024-11-20
打破文本边界:如何进行多模态RAG评估
2024-11-15
西湖大学&腾讯:一个多模态Web Agent的开源框架
2024-11-13
最复杂多智能体发布!百度推出“秒哒”和文心iRAG
2024-11-12
【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索
2024-11-11
开摆!谷歌AI视频上线!脚本、素材、剪片全稿定!
2024-11-11
文档OCR版式识别,兼顾速度与精度,YOLO当首选
2024-05-30
2024-09-12
2024-06-17
2024-08-06
2024-08-30
2024-04-21
2024-06-26
2024-07-07
2024-06-14
2024-07-21
2024-09-26
2024-09-26
2024-09-01
2024-07-15
2024-07-14
2024-07-10
2024-07-02
2024-06-29