我要投稿

突破传统！OpenAI Operator引领AI代理新纪元！

发布日期：2025-02-07 08:02:30 浏览次数： 1883 作者：barry的异想世界

在本文中，我通过AI代理的视角探讨OpenAI Operator，重点关注桌面和浏览器访问的准确性、人类监督，以及模型（CUA）与框架（Operator）之间的区别。最后，我讨论了前进过程中需要牢记的关键挑战和重要考虑因素。

介绍

最近发布了多个 AI Agent Computer Interface (ACI) 框架。

核心概念是 AI Agent 居住在用户的桌面上，使其能够通过 GUI 导航 PC 和互联网。

可以将 GUI 看作是 API 的人性化版本。这一能力赋予了 AI Agent 无与伦比的自由，能够按照用户的设想执行任务。

通过将用户请求与 GUI 的直观界面及其功能可能性对齐，AI 确保了无缝且高效的体验。

一些背景

虽然我一直在尝试定义不同的方法来引入代理和自动化，但我也喜欢提到一个代理光谱。在像Operator这样完整的解决方案中，以及在特定垂直领域中，都需要不同级别的代理和监督。

名为CUA的Operator模型将通过API提供。这让我想到下一个要点，即企业能够在非常细粒度的基础上构建自己的解决方案。

桌面 & 互联网

ACI 在两个主要环境中运行：PC 本身和浏览器。

在 PC 上，它可以访问 Word 和 Excel 等程序，管理文件，设置权限等。访问浏览器则开启了全新的功能和数据检索维度。

OpenAI Operator 例如，使用虚拟浏览器与网页内容互动，模拟人类行为以导航网站、搜索、填写表单和执行任务，即使在没有 API 的平台上也能进行。

同样，Claude 3.5 计算机使用模型通过在用户 PC 上运行的 Docker 实例利用虚拟机，进一步扩展 AI 能力。

针对用户市场有不同的策略，每种策略都有其自身的重点。

关键考虑因素包括确保安全性和保护用户数据，通过透明度和可靠性建立信任，减少访问和使用技术的摩擦，以及通过使解决方案直观易用来推动采用。

有效平衡这些因素可以决定 AI 在满足用户需求方面的成功，同时促进长期参与。

在下面的文章中，我探讨了 AI 中不断演变的术语，澄清了常常被交替使用的关键术语。我提供了对其含义和技术层面影响的详细分析，帮助解密围绕 AI 及其应用的语言。

准确性与监督

围绕 AI 代理的炒作导致了对其准确性的误解，特别是在复杂的长时间任务中。

为了解决这个问题，我倡导我所称的 代理工作流程，在人类提供指令的情况下，AI 创建并执行一个工作流程或事件序列，并在人的监督下进行。

这种方法将 AI 的效率与人类的监督相结合，以确保准确性和可靠性。

Claude AI 代理计算机接口 (ACI) 在通过图形用户界面 (GUI) 与计算机交互时，当前的效率比人类低约 80%。

虽然人类通常能够达到 70–75% 的熟练程度，但 Claude ACI 框架在 OSWorld 基准测试中仅得分 14.9% — 该测试旨在评估模型在导航和使用计算机方面的能力。

如下面所示，最近的研究显示 AI 代理的成功率在所有情况下均低于 25%。下面展示了支撑每个 AI 代理的模型。

OpenAI 操作员展示了市场领先的性能，尤其是与 Anthropic 相比。

与其他技术一样，AI 代理的性能遵循着一个熟悉的轨迹——就像先进的语音识别 (ASR) 一样，最初落后于人类能力，但最终达到了并超越了它们。这表明 AI 代理可能会沿着类似的路径，随着时间的推移实现并超越人类水平的性能。

下面的文章介绍了 Claude 3.5 计算机使用模型，它标志着一个突破性的里程碑，成为第一个通过图形用户界面 (GUI) AI 代理引入计算机使用的前沿 AI 模型的公开测试版。

将模型与框架分离

计算机用户代理 (CUA) 应被视为与 操作框架 和虚拟浏览器环境相分离的 独立模型。

与强调基于网络的工作流程的 操作框架 不同，CUA 专注于管理本地应用程序、文件和系统级任务，例如导航图形用户界面和执行命令。

这种区别至关重要，因为 CUA 解决了特定于桌面接口的挑战，包括操作系统特定行为和应用程序集成。

将 CUA 视为独立模型，可以实现量身定制的优化，补充操作框架的更广泛能力。这两个模型结合在一起，可以为本地和在线环境中的 AI 驱动自动化提供整体解决方案。

考虑下面的图像…

该图形显示了 CUA 模型如何与操作环境分开。

OpenAI 计划在 API 中公开驱动操作的模型 CUA，以便开发者可以使用它构建自己的计算机使用代理。

该模型处理原始像素数据，以理解屏幕上的上下文和内容，并使用虚拟鼠标和键盘完成操作。

它可以导航多步骤任务，处理错误，并适应意外变化。

这使得 CUA 能够在广泛的数字环境中执行任务，例如填写表单和浏览网站，而无需特定的 API。

在用户指令的指导下，CUA 通过一个整合感知、推理和行动的迭代循环进行操作：

感知

该模型将计算机的屏幕截图整合到其上下文中，提供系统当前状态的视觉快照，从而帮助其确定行动。

推理

通过链式思维过程，CUA 通过考虑当前和之前的截图及操作来评估下一步。这一推理过程使模型能够跟踪其进展，审查中间步骤，并根据需要进行调整，从而提高整体任务性能。

操作

CUA 然后执行任务，例如点击、滚动或输入，直到任务完成或需要进一步的用户输入。虽然它自动化了大多数操作，但 CUA 在执行敏感任务之前会提示用户确认，例如输入登录凭据或处理 CAPTCHA 挑战。

AI Agent Computer Interface (ACI). 革新用户交互 & AI 代理如何超越模型走向框架，重新定义计算机接口的未来

代理工作流程

OpenAI Operator 具有观察、创建和动态更新工作流程的能力，能够根据不断变化的输入和条件进行调整。

这些工作流程可以安排在特定时间或间隔运行，自动化任务和流程，而无需持续的人工干预。

通过观察用户输入和系统状态，Operator 可以实时调整工作流程以优化效率。

调度的工作流程允许例行任务自动处理，使用户免于重复操作。

Operator 同时创建和修改工作流程的能力确保其能够适应不断变化的需求，与其他模型如 CUA 无缝集成，以实现更广泛的任务自动化。

这种工作流程管理的灵活性增强了整体自动化体验，允许在各种任务和环境中进行即时和长期规划。

账户网站

根据OpenAI的内容，OpenAI Operator中似乎有一个账户网站选项卡。

这似乎是框架中的一个部分，允许AI通过存储的用户账户管理和与不同网站进行交互。

此功能使Operator能够安全地访问和自动化用户有账户的网站上的任务，例如登录、管理设置或执行其他经过身份验证的操作。

根据文档，账户网站选项卡组织并存储各种网站的凭据和访问点，使Operator能够根据需要检索或更新信息。它可能包括以下功能：

1. 账户管理： 存储和安全管理登录凭据及其他敏感数据。
2. 网站交互： 自动化需要用户身份验证的网站上的任务，例如提交表单或检索数据。
3. 安全性和隐私： 确保敏感信息的正确处理，包括加密和访问控制。
4. 任务自动化： 允许AI在用户有账户的网站上执行重复或定期的操作。

障碍与考虑

在截图和流媒体屏幕交互方面有一些考虑，这可能通过 CUA API 进行探索是有趣的。有评论指出，使用截图会导致连续性中断。

AI 代理在浏览互联网时面临弹出窗口和干扰性图形的挑战，研究表明浏览代理在这些元素的攻击下存在漏洞，强调了监督的必要性。

直接访问用户的机器存在风险，这就是为什么使用虚拟机，例如 Anthropic 使用的 Docker 环境，提供了更安全的替代方案。

虚拟机提供了更少的采用障碍，模拟了超越浏览器的完整 PC 使用。

对于复杂的长期任务，仍然需要强有力的人类监督，这可能导致网站与像 OpenAI 这样的 AI 提供商合作，创建安全环境——本质上是一个安全 AI 交互的市场。

我喜欢虚拟浏览器的想法，以及一个位于虚拟世界与用户之间的过滤器，用户决定从他们的个人空间共享哪些数据到虚拟浏览器环境。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-20

Dia之后，Fellou是我非常推荐的又一AI浏览器

2025-04-20

实测扣子刚刚上线的新版扣子空间。自动化解放人类越来越近了。

2025-04-19

4090/4090D 的48G版本是怎么来的

2025-04-18

简单好用的AI助手AingDesk

2025-04-18

Cursor 轻松集成 Supabase MCP 服务

2025-04-18

DroidRun：解锁AI手机自动化

2025-04-17

Google的AI防护方案-AI Protection

2025-04-17

复刻小智AI第2步，2张核心流程图学习一下它的WebSocket协议

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

大模型训练及推理【硬件选型指南】及 GPU 通识

2024-05-09

华为昇腾910B与英伟达B200性能对比

2024-07-23

【不看后悔】一文梳理端侧模型和小模型

2024-07-07

一文带你看懂英伟达A100、H100、A800、H800、H20系列

2025-02-12

NVIDIA消费级显卡4060/4090 AI训练能效比较

2024-07-01

对比A100和4090：两者的区别以及适用点

2024-06-24

私有化部署大模型非常重要环节：国产显卡和英伟达显卡到底该如何选择？

2024-06-23

手把手教你免费把AI大模型接入小米音箱，无需任何代码基础，小白级基础详细操作教程！

2024-10-20

小爱音箱大变身：接入 ChatGPT 和豆包，轻松打造专属 AI 语音助手！

2024-06-08

大家都在问

AI与自动化实战：n8n、Dify、Coze哪个更适合我们？

2025-04-13

经验分享：从买DeepSeek一体机到落地应用场景，有多远的距离？

2025-04-11

理想车载大模型为什么不直接用deepseek？

2025-04-03

JetBrains Junie 内测体验，能否挑战 Cursor？

2025-03-30

Tavily MCP Server深度解析：如何用Cline打造智能搜索神器？

2025-03-28

Claude Desktop- AI大模型+MCP Server结合，能够带给你哪些无限可能？

2025-03-26

罗永浩的AI新战场，能否打破“行业冥灯”魔咒？

2025-03-13

Mac Studio 首发实测：10 万块的顶配 Mac，能跑满血版 DeepSeek 吗？

2025-03-12

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB