AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Agent S通过对话让Agent控制电脑, 该类应用目前成功率还不到30%
发布日期:2024-10-17 18:59:57 浏览次数: 1688 来源:博金斯的AI笔记


RAG研究告一段落, 最近这4天Agent S这个开源项目出来了, 就深入研究一下Agent S论文。2024年年初就觉得这类项目因为难度,复杂度高, 距离实际应用还有些距离, 就研究了一些就搁置。半年后再看, 进步也不太大, 也就从11分到28分这种进步。

不管怎样, 还是做一下阶段性记录, 介绍Agent S机制和这类Agent的评估基准OSWorld Benchmark

像Agent S这类多模态大模型Multimodal Large Language Model驱动的Agent控制电脑的图形用户界面(GUI)面对的常见问题:

(1) 随着应用程序和网站的种类不断增多和快速变化,Agent需要具备专业的、最新的领域知识,同时还需要具备实时学习的能力Online Web Knowledge

(2) 复杂的桌面任务往往涉及长时间、多步骤的规划,每个步骤之间相互依赖,必须按照特定的顺序执行。因此,代理需要创建一个明确的计划,其中包含中间子目标,并且实时跟踪任务的进展

(3) 图形用户界面(GUI)代理必须能够在动态且不统一的界面中导航,处理大量的视觉和文本信息,同时在巨大的操作空间中工作。这要求代理能够区分相关和不相关的多模态元素,准确解读图形提示,并在执行任务时对视觉反馈做出回应。这个是关键难点,在Agent S论文介绍中, 也注重强调了这个GUI, specific Agent Computer Interface

如果一个AI要在电脑桌面上执行任务,它面对的操作选项可能有上千个:点击不同的按钮、拖动窗口、输入不同的命令等等。在这种情况下,AI需要既能适应不同的任务需求,又能根据环境做出明智的决策, 适应性要好

Agent S

Human(人类):用户向智能代理提出了一个请求,比如“你能帮我计算总销售额、平均月销售额,并生成可视化图表吗?”

Narrative Memory:存储之前的经验,它可以记住自己曾经执行过的类似任务,为hierarchical planning提供上下文背景信息contextual understanding。例如,它曾在LibreOffice Calc中使用SUM公式来计算销售额。

Episodic Memory:存储之前用到的子任务执行细节。比如它曾使用特定的命令(如agent.type()和agent.drag_and_drop())来选择单元格和计算。

Online Web Search:如果代理需要额外的信息,它可以像人类一样搜索网页,查找如何选择单元格或生成图表。



Hierarchical Planning子任务规划:分解用户的请求为多个子任务subtask

language centric Agent-Computer Interface:这是agent实际操作计算机的交互界面, 是用文字描述的abstraction layer来驱动的, 比如打开浏览器并搜索AI论文。在交互时不仅考虑用户指令, 当前的用户界面会把屏幕截图Screenshot等视觉信息和可访问性树accessibility tree(A11y tree)也提供给底层应用, 让它们不仅可以看到界面,还能准确知道每个按钮、文本框等元素是什么,并知道它们的具体功能, 结合MLLM的推理, 让MLLM执行

可访问性树accessibility tree (A11y tree) : 它将图形界面中的每个元素(如按钮、文本框等)结构化呈现出来,让代理可以精确找到和识别这些元素。

这个ACI需要在正确时间接收Agent执行每个子任务后的界面反馈变化environment transitions,这样才能继续做出合适的操作。

Agent S处理过程:
输入用户任务user task ,subtask planner基于网络知识web knowledge和叙事记忆narrative memory将用户任务分解为多个子任务,并由work模块通过情景记忆episodic memory和策略反思器trajectory reflection生成具体行动;ACI (Agent Computer Interface)的接口执行这些行动与桌面交互
评估器evaluator监控反馈成功的任务和子任务到episodic memory和narrative memory(上半部分虚线), Observation模块则观察执行操作后电脑界面发生的变化来看下一步的task要怎么做, 传送给subtask planner模块(最下面虚线)


成功执行任务和子任务后,Agent S会把成功的子任务和任务经过总结, 评估后存储到episodic memory和narrative memory中, 用作之后任务的contextual  understanding

下图是memory存储更新的过程


再看看实际的效果, 论文强调Agent S在这些任务上的表现已经达到目前已知的最好的水平。但实际上跟真正落地产生实际效用来讲, 系统层面的操作(比如, 打开Chrome浏览器这种System setting的操作)连50%都达不到, 像复杂一些的excel这类办公场景和需要好几个软件一同执行的Workflow场景, 则在10%左右


OSworld: 用于评估和比较多模态代理在真实计算机环境中的表现,特别是在处理开放性任务时的能力。任务包括但不限于网页浏览器、办公套件、媒体播放器、编码IDE、PS绘图以及多应用工作流, 大概有300+ 个任务

尽管目前最好的AI模型在OSWorld上的表现有所提高,但它们仍然无法达到人类测试者的完成率。

下图是OS world 根据A11y tree和屏幕截图ScreenShot的视觉信息两者对目前让agent/MLLM用自然语言执行电脑操作的排名

最高的居然是上海人工智能实验室的AgentStore, 但目前微信,谷歌搜索了, 都没有找到AgentStore相关资料。其次是Simular Research的Agent S 再其次是GPT4V



2024年年初清华的CogAgent在最后一名(15)和7月昆仑万维的Cradle还没上榜

CogAgent当时还只用了用户文本需求和屏幕截图, 当时都还没有使用A11y Tree




研究Agent S背后的公司Simular AI, 也想打造一个能够通过语言控制电脑操作的闭源产品,但目前官网也没把产品贴出来。整个这个赛道难度大, 现在还在初始阶段

后记

看国内研究机构, 发现大多都在研究多模态, 研究3D、视频识别理解对话, 像上海人工智能研究院,香港大学(带头提出的OSWorld Benchmark), 而在文本生成上还是欧美的院校研究得多。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询