我要投稿

Agent S通过对话让Agent控制电脑, 该类应用目前成功率还不到30%

发布日期：2024-10-17 18:59:57 浏览次数： 2217

作者：博金斯的AI笔记

微信搜一搜，关注“博金斯的AI笔记”

RAG研究告一段落, 最近这4天Agent S这个开源项目出来了, 就深入研究一下Agent S论文。2024年年初就觉得这类项目因为难度,复杂度高, 距离实际应用还有些距离, 就研究了一些就搁置。半年后再看, 进步也不太大, 也就从11分到28分这种进步。

不管怎样, 还是做一下阶段性记录, 介绍Agent S机制和这类Agent的评估基准OSWorld Benchmark

像Agent S这类多模态大模型Multimodal Large Language Model驱动的Agent控制电脑的图形用户界面（GUI）面对的常见问题:

(1) 随着应用程序和网站的种类不断增多和快速变化，Agent需要具备专业的、最新的领域知识，同时还需要具备实时学习的能力Online Web Knowledge

(2) 复杂的桌面任务往往涉及长时间、多步骤的规划，每个步骤之间相互依赖，必须按照特定的顺序执行。因此，代理需要创建一个明确的计划，其中包含中间子目标，并且实时跟踪任务的进展

(3) 图形用户界面（GUI）代理必须能够在动态且不统一的界面中导航，处理大量的视觉和文本信息，同时在巨大的操作空间中工作。这要求代理能够区分相关和不相关的多模态元素，准确解读图形提示，并在执行任务时对视觉反馈做出回应。这个是关键难点,在Agent S论文介绍中, 也注重强调了这个GUI, specific Agent Computer Interface

如果一个AI要在电脑桌面上执行任务，它面对的操作选项可能有上千个：点击不同的按钮、拖动窗口、输入不同的命令等等。在这种情况下，AI需要既能适应不同的任务需求，又能根据环境做出明智的决策, 适应性要好

Agent S

Human（人类）：用户向智能代理提出了一个请求，比如“你能帮我计算总销售额、平均月销售额，并生成可视化图表吗？”

Narrative Memory：存储之前的经验,它可以记住自己曾经执行过的类似任务,为hierarchical planning提供上下文背景信息contextual understanding。例如，它曾在LibreOffice Calc中使用SUM公式来计算销售额。

Episodic Memory：存储之前用到的子任务执行细节。比如它曾使用特定的命令（如agent.type()和agent.drag_and_drop()）来选择单元格和计算。

Online Web Search：如果代理需要额外的信息，它可以像人类一样搜索网页，查找如何选择单元格或生成图表。

Hierarchical Planning子任务规划：分解用户的请求为多个子任务subtask

language centric Agent-Computer Interface：这是agent实际操作计算机的交互界面, 是用文字描述的abstraction layer来驱动的, 比如打开浏览器并搜索AI论文。在交互时不仅考虑用户指令, 当前的用户界面会把屏幕截图Screenshot等视觉信息和可访问性树accessibility tree(A11y tree)也提供给底层应用, 让它们不仅可以看到界面，还能准确知道每个按钮、文本框等元素是什么，并知道它们的具体功能, 结合MLLM的推理, 让MLLM执行

“
可访问性树accessibility tree (A11y tree) : 它将图形界面中的每个元素（如按钮、文本框等）结构化呈现出来，让代理可以精确找到和识别这些元素。

这个ACI需要在正确时间接收Agent执行每个子任务后的界面反馈变化environment transitions,这样才能继续做出合适的操作。

Agent S处理过程:

输入用户任务user task ,subtask planner基于网络知识web knowledge和叙事记忆narrative memory将用户任务分解为多个子任务，并由work模块通过情景记忆episodic memory和策略反思器trajectory reflection生成具体行动；ACI (Agent Computer Interface)的接口执行这些行动与桌面交互

评估器evaluator监控反馈成功的任务和子任务到episodic memory和narrative memory(上半部分虚线), Observation模块则观察执行操作后电脑界面发生的变化来看下一步的task要怎么做, 传送给subtask planner模块(最下面虚线)

成功执行任务和子任务后,Agent S会把成功的子任务和任务经过总结, 评估后存储到episodic memory和narrative memory中, 用作之后任务的contextual understanding

下图是memory存储更新的过程

再看看实际的效果, 论文强调Agent S在这些任务上的表现已经达到目前已知的最好的水平。但实际上跟真正落地产生实际效用来讲, 系统层面的操作(比如, 打开Chrome浏览器这种System setting的操作)连50%都达不到, 像复杂一些的excel这类办公场景和需要好几个软件一同执行的Workflow场景, 则在10%左右