我要投稿

Agent S2：像人一样操作 GUI，开源 AI 智能体新突破

发布日期：2025-04-28 13:20:26 浏览次数： 1523 作者：子非AI

• Agent S2 是啥？ Simular AI 推出的第二代开源 AI Agent 框架，能像人一样直接操作电脑和手机的 图形用户界面 (GUI)，完成各种任务。
• 牛在哪？ 在 OSWorld (电脑) 和 AndroidWorld (手机) 等权威基准测试中，性能全面超越 OpenAI、UI-TARS 等，刷新 SOTA (业界最佳) 记录。
• 凭什么这么牛？ 借鉴人脑的 模块化设计，协同通用大模型和专用模型；采用四大创新架构：主动分层规划、纯视觉定位交互 (只看截图就能操作!)、专家模块接口 (给大模型减负)、经验驱动的记忆机制 (越用越聪明)。
• 亮点是啥？ 完全开源，跨平台 (Win/Mac/Linux)，灵活集成 多种大模型 (LLM)，而且直接用原始截图交互，泛化能力超强，不受特定应用限制。
• 意味着什么？ AI 帮你处理繁琐的电脑/手机操作不再遥远，个人智能自动化助理正加速到来，生产力即将迎来新一轮革命。

性能炸裂！Agent S2 全面刷新 SOTA 记录

Agent S2 的实力并非纸上谈兵，它在多个行业公认的 CUA 基准测试中展现了卓越的计算机和手机操作能力，取得了新的 State-of-the-Art (SOTA，即当前最佳水平) 成果。

挑战最难任务：OSWorld 基准测试表现

OSWorld 是一个衡量 AI Agent 在真实操作系统环境下完成复杂任务能力的权威基准。Agent S2 在该测试中表现亮眼，特别是在模拟真实世界使用场景的 15 步和 50 步评估中：

Image 1: Agent S2 (结合 Claude 3.7 和 UI-Tars) 在 OSWorld 基准测试上的表现

数据显示，在更长、更复杂的 50 步评估中，Agent S2 达到了 34.5% 的准确率，成功超越了此前由 OpenAI CUA/Operator 创下的 32.6% 的记录。这充分证明了 Agent S2 的 Agentic 框架不仅能生成最优的任务计划、采取更精确的行动，而且在长任务序列中具备优秀的自我修正和持续改进能力。它的性能可以随着任务步数的增加而有效扩展，显示出其框架设计能够超越单一训练模型的极限。

跨平台验证：AndroidWorld 基准测试表现

Agent S2 的能力不仅限于桌面环境，在移动端同样出色。在 AndroidWorld 这个专注于评估 Android 手机操作能力的基准测试中，Agent S2 同样取得了 SOTA 成绩：

根据 Simular AI 的最新数据，Agent S2 在 AndroidWorld 上实现了 54.3% 的准确率，显著超过了之前的 SOTA 记录保持者 UI-TARS (46.8%)。这一成绩不仅展示了 Agent S2 框架在不同视觉 UI 环境（桌面 vs 移动）下的强大 泛化能力，也证明了其模块化设计和核心原则的普适性。

SOTA 背后：框架的可扩展性、泛化性与自我修正能力

这些 SOTA 成绩的取得，并非仅仅依赖于某个强大的基础模型，而是 Agent S2 框架本身设计优越性 的体现。它证明了一个精心设计的 Agentic 框架能够有效地组织和协调不同模型的优势，实现：

• 可扩展性: 在长达 50 步的任务中依然保持甚至提升性能优势。
• 泛化性: 在差异巨大的桌面和移动环境中均取得 SOTA。
• 自我修正与鲁棒性: 能够在长任务序列中从错误中恢复并调整计划。

设计哲学：为何“模块化”是构建强大 AI Agent 的终极答案？

Agent S2 取得突破性进展的核心，在于其遵循的 模块化设计哲学，这一理念的灵感，直接来源于我们人类大脑的运作方式。

灵感源自人脑：专业化分工与高效协同

人脑是一个极其精妙的模块化系统。不同的脑区专注于不同的任务：左半球擅长分析思维，右半球驱动创造力，视觉皮层处理图像，运动和感觉区域管理身体协调。这些高度专业化的“模块”并非孤立工作，而是通过复杂的神经网络协同运作，共同完成高级认知功能。

Simular 的理念：框架优于单一模型

Simular AI 坚信，最高效的 AI Agent 应该遵循类似的原则——构建一个能够 无缝编排多种不同模型的模块化框架，而不是依赖一个试图包揽一切的、庞大而笨重的单一系统。他们的第一代 Agent S 框架就体现了这一愿景。

创新点一：整体大于部分之和

Agent S2 的研究进一步证明了一个有些反直觉但至关重要的观点：一个精心设计的模块化框架，即使其内部使用的单个模型并非各自领域的最优选择，其 整体性能也可能超越当前最强大的单一模型。

为什么会这样？因为不同的 AI 模型各有擅长。有的模型（如大型语言模型，是“通才”）擅长理解指令、进行高层规划；有的模型（如专门的视觉模型或操作模块，是“专家”）则精于识别界面元素或执行特定精细动作。

一个强大的 模块化框架 扮演的角色就是 “指挥家”，它负责 优化这些模块之间的协同，确保每个模型在其最擅长的环节发挥作用。这种方式：

1. 发挥长处，规避短处: 让每个模型专注于自己擅长的事情。
2. 降低复杂度: 将复杂任务分解给不同的模块。
3. 提升效率和鲁棒性: 专用模型通常更快、更可靠。
4. 易于更新和扩展: 轻松替换或添加新的模块，适应技术发展。

因此，Agent S2 的成功证明了，智能的“编排”与模块化的“协作” 可能比单纯追求单个模型的“强大”更为关键。

深入 Agent S2 核心：四大架构创新揭秘

Agent S2 强大的能力源于其精心设计的架构，该架构围绕 四个核心设计原则 构建，旨在通过模块化和可扩展的方式处理复杂的数字任务。

原则一：主动分层规划

复杂的计算机任务天然具有层次性。Agent S2 遵循这种结构，将任务规划分为两层：高层规划由通用大模型负责制定策略，低层执行由专用模型负责精确操作。

更关键的是，Agent S2 采用 主动式规划。不同于仅在出错时才重新规划的被动方式，Agent S2 在 每个子任务成功完成后，都会主动地、动态地更新和调整后续计划。这种“走一步看三步”的方式，显著提升了 Agent S2 在复杂动态环境中的 适应性、连贯性 和效率。

原则二：纯视觉定位交互

这是 Agent S2 的一个核心创新点，堪称让 Agent 真正拥有了“慧眼”。 传统的 GUI 自动化工具常依赖于应用提供的结构化信息（如可访问性树），但这覆盖不全、一致性差、无法处理非标准元素。

Agent S2 摒弃了对这种结构化信息的硬性依赖，转而采用 纯粹基于视觉 的方式。它 仅使用原始的屏幕截图作为输入，通过 专门的视觉定位模型 来识别元素、精确定位，并支持精确的点击、输入、拖拽等操作。

这种“所见即所得”的方式，使得 Agent S2：

• 极其通用: 能操作几乎任何有图形界面的应用。
• 交互精度高: 实现像素级的精确控制。
• 更接近人类直觉: 模拟人类主要依赖视觉操作的方式。

这是 Agent S2 能够跨越不同应用和平台取得成功的基石。

原则三：带专家模块的智能接口

为了让核心的通用大模型能专注于高层规划，Agent S2 引入了 专家模块。其核心思想是，将一些 复杂或需要特殊技巧的低层操作（如精确选择文本），从通用大模型的职责中卸载出去，交给专门、高效的专家模块处理。

这样做的好处是：

• 降低大模型的“认知负荷”: 让其专注于战略思考。
• 提升任务执行效率和可靠性: 专家模块更快更准。
• 更清晰的职责分离: 架构更清晰，系统更稳定。

原则四：经验驱动的记忆机制

一个真正智能的 Agent 需要从经验中学习。Agent S2 引入了一种 持续学习的记忆机制，使其能够随着经验积累而进化，越用越聪明。

通过记录和分析过去的 任务执行过程（情节记忆） 并提炼 经验教训（叙事记忆），Agent S2 能够：

• 回忆先前的成功行动。
• 基于历史成败优化未来策略。
• 实现长期自适应智能， 变得越来越懂用户、越来越高效。

理论的先进性最终要通过实践来检验。下面，就让我们通过一系列真实的电脑和手机操作实例，眼见为实地感受 Agent S2 的强大执行力。

Agent S2 的跨平台“神操作”展示

Agent S2 不仅理论先进，更能流畅地完成各种跨应用、跨平台的复杂任务。以下精选几个实例（每个任务仅展示一张代表性截图，更多步骤细节请参考原始资料），直观感受 Agent S2 是如何像人类一样操作电脑和手机的。

电脑端任务实例

任务1：下载、编辑、导出图片 (Google Drive + GIMP)

目标: 从 Google Drive 下载图片，用 GIMP 压缩并导出。这涉及到网页、文件系统和图像编辑软件的复杂交互。

任务2：复制图片到文档并导出 (GIMP + LibreOffice)

目标: 将 GIMP 中的图片复制到 LibreOffice Writer 文档，并导出为 PDF。这演示了跨应用的数据操作和文档处理。

Image 40: 图片成功从GIMP粘贴到LibreOffice Writer文档中

(图注：Agent S2 成功将 GIMP 中的图像通过剪贴板粘贴到 LibreOffice Writer 文档内。)

任务3：安装浏览器插件

目标: 在浏览器中找到并安装一个 Web 扩展。这需要 Agent 理解浏览器界面，导航商店，搜索，安装并处理确认。

(图注：Agent S2 准确识别并点击浏览器弹出的“添加扩展”按钮以确认安装。)

任务4：移除视频字幕并导出 (视频编辑软件)

目标: 使用视频编辑软件移除视频字幕并导出。这展示了操作专业软件处理时间线、轨道等复杂交互的能力。

任务5：在电子表格中计算利润 (LibreOffice Calc)

目标: 在 LibreOffice Calc 中根据数据计算利润。涉及定位单元格、输入公式等操作。

Image 111: Agent S2 在 LibreOffice Calc 的单元格中输入利润计算公式

任务6：在文档中划掉段落 (LibreOffice Writer)

目标: 在 LibreOffice Writer 文档中找到最后一个段落并应用删除线格式。考验文本定位和格式化能力。

手机端任务实例

Agent S2 的能力同样延伸到了 Android 智能手机环境。

任务7：填写联系人表单 (Android)

任务: 在 Android 联系人应用中按要求填写姓名、电话、标签等信息。测试移动 App 内导航、输入、选择等基本操作。

Image 130: Agent S2 在 Android 联系人应用的电话号码字段输入信息

(图注：Agent S2 正在 Android 手机的联系人应用界面中，准确地向电话号码输入框填入指定数字。)

任务8：整理文件系统 (Android)

任务: 在 Android 文件管理器中将一个文件从一个文件夹移动到另一个文件夹。需要浏览、选择、执行移动、导航等文件管理动作。

Image 145: Agent S2 在 Android 文件管理器中点击“移动”按钮确认操作

这些实例生动地展示了 Agent S2 的实际操作能力，它已能够在真实世界的操作系统和应用程序中完成复杂、有意义的任务。

Agent S2 - 不仅仅是工具，更是智能交互的未来

Agent S2 的出现，标志着计算机使用代理 (CUA) 技术迈上了一个新的台阶。它不仅在基准测试上取得了令人瞩目的 SOTA 成绩，更重要的是，它展示了一条通过 模块化设计、纯视觉交互、主动规划和持续学习 来构建强大、通用、适应性强的 AI Agent 的可行路径，并将其开源贡献给了整个社区。

Agent S2 的核心价值与突破在于：

• 性能领先: 在复杂 GUI 操作任务上证明了卓越的能力。
• 理念创新: 强调模块化协同优于单一“超级模型”。
• 技术扎实: 四大核心设计原则（尤其纯视觉交互）是其高效运作的基础。
• 实践可行: 大量实例证明其能在真实环境中完成有意义的任务。
• 开放灵活: 完全开源、跨平台、支持多种 LLM，潜力无限。

我们正站在智能交互变革的前夜。Agent S2 这样的技术，让我们得以一窥未来：AI 不再仅仅是信息处理的工具，而是能够像熟练的人类助手一样，直接操作我们日常使用的数字设备。从 自动化繁琐工作流，到为 残障人士提供辅助，再到创造 全新的交互体验，CUA 技术拥有无限的想象空间。

Agent S2 以其开源的姿态，邀请全球的开发者和研究者共同参与到这场激动人心的探索中。它不仅仅是一个工具，更是一个火种，有望点燃智能交互的燎原之火，开启一个人机协作更加紧密、更加高效的新纪元。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业