我要投稿

Agent S-比肩普通人一样的电脑Agent如约而来，引领“电脑交互”新纪元。

发布日期：2024-10-15 07:23:10 浏览次数： 2557

作者：AI产品汇

微信搜一搜，关注“AI产品汇”

“ 多模态大型语言模型（MLLM）已经取得了突破性进展，如GPT-4o和Claude3.5，这一切为开发用于桌面操作系统等以人为本的交互系统的GUI代理奠定了一个坚实的基础。对于计算机Agent而言，这意味着它需要能够完成理解当前屏幕，然后点击、打字和打开应用程序等任务，这可能有助于用户实现特定的目标。自主图形用户界面（GUI）代理有望以最通用的方式解决非常具体和高度多样化的用户查询任务，例如个人用户的数据输入、日程安排和文档创建，以及简化商业环境中的操作。 本文作者提出了Agent S，这是一种新的代理框架，可以解决上诉的众多挑战，实现像人类一样使用计算机的目标。作者介绍了一种经验增强分层规划方法。这种方法利用在线网络知识获取经常变化的软件和网站的最新信息，以及叙事记忆，以利用过去互动的高级经验。通过将复杂任务分解为可管理的子任务，并使用情景记忆进行逐步指导，Agent S不断改进其动作并从经验中学习，实现了适应性强、有效的任务规划。”

项目主页-https://www.simular.ai/agent-s

代码链接-https://github.com/simular-ai/Agent-S

论文链接-https://arxiv.org/pdf/2410.08164

01-Agent基础知识

01.01-什么是Agent？

上图展示了一个统一的agent的整体架构图，整个架构包括：配置模块、记忆模块、规划模块和行动模块 4个关键模块。1) 配置模块的目的是识别agent的角色；2) 记忆和规划模块将agent置于一个动态环境中，使其能够回忆过去的行为并计划未来的动作；3) 行动模块负责将agent的决策转化为具体的输出；在这些模块中，配置模块影响记忆和规划模块，而这三个模块共同影响行动模块。总而言之，Agent适合将一些复杂任务化繁为简，分而治之（将一个复杂的大任务分成很多可以解决的简单子任务）！

01.02-什么是计算机Agent？

广义来讲，Agent是任何能够感知其环境、推理并对其采取行动的智能体。对于计算机Agent而言，这意味着它需要能够完成理解当前屏幕，然后点击、打字和打开应用程序等任务，这可能有助于用户实现特定的目标。计算机Agent是利用了多模态技术，通过大语言模型和视觉模型来更好的理解图像和文本。

02-Agent S背景简介

自从鼠标被发明以来，它一直由人类控制，用于与计算机交互。但真的必须如此吗？自主图形用户界面（GUI）代理有望以最通用的方式解决非常具体和高度多样化的用户查询任务，例如个人用户的数据输入、日程安排和文档创建，以及简化商业环境中的操作：通过使用鼠标和键盘的直接执行UI交互。

此外，随着对持续手动交互需求的降低，这些代理不仅提高了效率，还提高了可访问性，使得残疾人能够以新的、变革性的方式进行交互。多模态大型语言模型（MLLM）已经取得了突破性进展，如GPT-4o和Claude3.5，这一切为开发用于桌面操作系统等以人为本的交互系统的GUI代理奠定了一个坚实的基础。

然而，自动化计算机任务也带来了众多的挑战。首先，不断发展的应用程序和网站的广泛范围要求代理拥有专业和最新的领域知识，以及从开放世界经验中学习的能力。其次，复杂的桌面任务通常涉及长期、多步骤的规划，其中必须按照特定的顺序执行相互依存的操作。因此，代理必须创建一个包含中间子目标的清晰计划，并能够跟踪任务的实施进度。最后，GUI代理必须在动态、非统一的界面中导航，在庞大的动作空间内操作时处理大量的视觉和文本信息。这涉及区分相关和不相关的元素，准确解释图形线索，并在任务执行过程中对视觉反馈做出回应。

03-Agent S算法简介

本文作者提出了Agent S，这是一种新的代理框架，可以解决上诉的众多挑战，实现像人类一样使用计算机的目标。首先，为了增强GUI代理在解决具有特定领域知识的多样化、长期桌面任务方面的能力，作者提出了一种经验增强的分层规划方法。这种方法利用存储在叙事记忆中的在线网络知识和过去的经验，将复杂的长期任务分解为可管理子任务的结构化计划。在线Web知识提供有关特定应用程序的最新外部知识，使代理能够适应频繁变化的软件和网站。叙事记忆包含来自过去互动的高级抽象任务体验，为主体提供上下文理解，从而进行有效的任务规划。代理监控任务完成进度，在每个子任务执行期间，它从情景记忆中检索详细的、循序渐进的子任务经验，以动态优化其动作并不断提高其规划能力。成功的子任务和完整的任务体验会被评估、总结并存储在情景和叙事记忆中，以实现持续改进。

此外，作者引入了一个特定的以语言为中心的代理计算机接口（ACI）作为抽象层，用来提高基于MLLM的GUI代理的基础、安全性和效率。ACI通过以下方式定义了一种交互范式：1）使用视觉输入来理解环境变化的双输入策略，以及用于精确元素基础的图像增强可访问性树；2）基于语言的基元（例如，点击（元素id））的有界动作空间，有利于MLLM常识推理，并以正确的时间分辨率生成环境转换，以便代理观察即时和任务相关的环境反馈。

大量的实验结果显示，Agent S在OSWorld基准测试上的整体性能有了显著提高（从11.21%提高到20.58%，相对提高了83.6%），确立了新的SOTA。另外，作者还评估了Agent S在并发工作WindowsAgentRena上的性能，在没有任何显式调整的情况下，作者观察到在同等设置下性能从13.3%提高到18.2%。这一改进证明了Agent S对不同操作系统的广泛通用性。

04-Agent S算法应用场景

04.01-Windows下使能night light

04.02-Mac下关闭自动保存

05-Agent S算法整体流程

Agent S是一个新的Agent框架，它将三种主要策略集成在一个闭环链路中，用来解决复杂的基于GUI的操作系统控制任务：体验增强的分层规划、叙事和情节记忆的持续更新，以及用于在GUI上进行精确感知和操作的Agent计算机界面。经验增强的分层规划允许Agent S将复杂的任务分解为可管理的子任务。这使得高级规划和低级执行都可以从外部基于网络的经验和内部特定任务的经验中汲取灵感。在叙事和情景记忆中存储和检索自我评估的任务体验的持续过程使Agent S能够随着时间的推移而改进，并适应开放世界桌面环境的变化。ACI通过提供包含所有有效GUI元素的视觉增强可访问性树观察，并将代理选择的动作约束到有效动作的有界离散空间来确保接地。

上图展示了Agent S框架的整体流程。给定任务Tu和初始环境观察o0，Manager使用网络知识和叙事记忆进行经验增强的分层规划，从而生成子任务s0、…、，sn。对于每个si，Worker wi从情景记忆中提取，在时间t生成一个动作，该动作由ACI执行，并返回下一个即时观察值ot+1。自我评估模块通过将总结的子任务和完整的任务轨迹存储在叙事和情景记忆中来结束循环。

06-Agent S算法实现细节

06.01-内存构建与更新细节

上图展示了Agent S的内存构建与更新的实现细节，整个过程包含两个阶段：自我监督探索和持续内存更新。最初的叙事和情节记忆是在探索阶段通过一些随机策划的任务构建的，然后根据推理任务不断更新。

通过自我监督探索构建初始记忆。为了引导叙事Mn和情节记忆Me，Agent S对一组合成生成的任务进行了自我监督探索。作者使用两种方法来创建两种类型的随机探索任务：与环境无关的任务和环境感知任务。对于与环境无关的任务，作者利用任务生成器从OSWorld和WindowsAgentRena中使用的各种应用程序中生成前50个最常见的任务。对于环境感知任务，作者在OSWorld和WindowsAgentRena中获取任务的初始环境，并提示任务生成器根据环境生成不同的任务。这两种类型的任务都包括探索任务。

持续内存更新阶段。当Agent S与新任务进行交互时，它会不断更新叙事记忆Mn和情节记忆Me。因此，即使在初始探索完成之后，代理也会在遇到和尝试更新、更新颖的任务时继续学习。这个过程使该代理即使在推理过程中也能学习，并有效地将学习到的知识检索到新任务中。

06.02-环境创建&基线算法细节

由于OSWorld基准测试在Ubuntu上包含369个任务，对于Agent S的骨干模型，作者分别利用GPT-4o和Claude-3-Sonnet。对于WindowsAgentRena，作者在GPT-4o上测试了所有154个任务。使用PaddleOCR2工具包作为OCR工具，从而增强接地的可访问性树。作者使用的检索嵌入模型是text-embedding-3-small。

Agent S将可访问性树和屏幕截图作为输入，作者使用OSWorld和Windo wsAgentRena中报告的结果，并将相同的输入设置作为基线。OSWorld基线将基于坐标的可访问性树和屏幕截图作为空间基础的输入，以在每一步生成具有坐标的动作。WindowsAgentRena基线NAVI利用可访问性树、OCR和专有模型来处理屏幕截图并创建标记集作为输入。它的动作空间包括一组受约束的基元，但允许将多个动作链接在一起。

07-Agent S算法性能评估

上表展示了Agent S和多个SOTA的基线模型在整个OSWorld测试集上的性能比较结果。对于GPT-4o模型，Agent S的总体成功率为20.58%，几乎是最佳对应基线（GPT4o为11.21%）的两倍。Agent S在“日常”和“专业”任务中的表现始终优于基线，成功率分别达到27.06%和36.73%，而最佳基线结果分别为12.33%和14.29%。

这些任务通常用于日常生活或涉及知识密集型的专业应用程序中，这些应用程序更多地受益于Agent S的检索增强能力。Claude-3.5-Sonnet和GPT-4o在大多数任务中都优于基线版本。Claude-3.5-Sonnet在“日常”和“专业”任务中甚至比GPT-4o表现更好。结果表明，与基线方法相比，Agent S在处理各种复杂任务方面的能力得到了增强。

上表展示了从经验中学习可以增强GUI代理的领域知识。Agent S的体验式学习过程包括搜索网络知识、从叙事记忆中检索完整的任务体验和从情景记忆中检索子任务体验。为了评估不同组件的效果，作者逐次删除每个组件，并观察不同任务类别的性能变化结果。

结果如上表所示，从网络知识的普遍经验中学习，使得Agent S能够在广泛的任务中制定明智的计划，并产生最显著的影响。从叙事和情节记忆中学习与网络检索有效地协同作用，结果详细说明了它们的消融如何影响主体处理复杂任务的能力，强调了体验式学习的价值。这些结果表明，每个组件在增强代理的领域知识方面都起着至关重要的作用。删除所有三个组件（不包括全部）会显著降低性能，这表明了从设计经验中学习的重要性。

07-Agent S算法效果展示

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业