支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


突破传统!OpenAI Operator引领AI代理新纪元!

发布日期:2025-02-07 08:02:30 浏览次数: 1883 作者:barry的异想世界
推荐语

探索AI代理如何突破传统界限,开启桌面与浏览器访问新纪元。

核心内容:
1. AI代理在桌面和浏览器环境中的革命性应用
2. OpenAI Operator与CUA模型的区别及企业解决方案构建
3. 关键挑战:安全性、用户信任与技术摩擦的降低

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

在本文中,我通过AI代理的视角探讨OpenAI Operator,重点关注桌面和浏览器访问的准确性、人类监督,以及模型(CUA)与框架(Operator)之间的区别。最后,我讨论了前进过程中需要牢记的关键挑战和重要考虑因素。

介绍

最近发布了多个 AI Agent Computer Interface (ACI) 框架。

核心概念是 AI Agent 居住在用户的桌面上,使其能够通过 GUI 导航 PC 和互联网。

可以将 GUI 看作是 API 的人性化版本。这一能力赋予了 AI Agent 无与伦比的自由,能够按照用户的设想执行任务。

通过将用户请求与 GUI 的直观界面及其功能可能性对齐,AI 确保了无缝且高效的体验。

一些背景

虽然我一直在尝试定义不同的方法来引入代理和自动化,但我也喜欢提到一个代理光谱。在像Operator这样完整的解决方案中,以及在特定垂直领域中,都需要不同级别的代理和监督。

名为CUA的Operator模型将通过API提供。这让我想到下一个要点,即企业能够在非常细粒度的基础上构建自己的解决方案。

桌面 & 互联网

ACI 在两个主要环境中运行:PC 本身和浏览器。

在 PC 上,它可以访问 Word 和 Excel 等程序,管理文件,设置权限等。访问浏览器则开启了全新的功能和数据检索维度。

OpenAI Operator 例如,使用虚拟浏览器与网页内容互动,模拟人类行为以导航网站、搜索、填写表单和执行任务,即使在没有 API 的平台上也能进行。

同样,Claude 3.5 计算机使用模型通过在用户 PC 上运行的 Docker 实例利用虚拟机,进一步扩展 AI 能力。

针对用户市场有不同的策略,每种策略都有其自身的重点。

关键考虑因素包括确保安全性和保护用户数据,通过透明度和可靠性建立信任,减少访问和使用技术的摩擦,以及通过使解决方案直观易用来推动采用。

有效平衡这些因素可以决定 AI 在满足用户需求方面的成功,同时促进长期参与。

在下面的文章中,我探讨了 AI 中不断演变的术语,澄清了常常被交替使用的关键术语。我提供了对其含义和技术层面影响的详细分析,帮助解密围绕 AI 及其应用的语言。

准确性与监督

围绕 AI 代理的炒作导致了对其准确性的 误解,特别是在复杂的长时间任务中。

为了解决这个问题,我 倡导 我所称的 代理工作流程,在人类提供指令的情况下,AI 创建并执行一个工作流程或事件序列,并在人的监督下进行。

这种方法将 AI 的效率与人类的监督相结合,以确保准确性和可靠性。

Claude AI 代理计算机接口 (ACI) 在通过图形用户界面 (GUI) 与计算机交互时,当前的效率比人类低约 80%

虽然人类通常能够达到 70–75% 的熟练程度,但 Claude ACI 框架在 OSWorld 基准测试中仅得分 14.9% — 该测试旨在评估模型在导航和使用计算机方面的能力。

如下面所示,最近的 研究 显示 AI 代理的成功率在所有情况下均低于 25%。下面展示了支撑每个 AI 代理的模型。

OpenAI 操作员展示了市场领先的性能,尤其是与 Anthropic 相比。

与其他技术一样,AI 代理的性能遵循着一个熟悉的轨迹——就像先进的语音识别 (ASR) 一样,最初落后于人类能力,但最终达到了并超越了它们。这表明 AI 代理可能会沿着类似的路径,随着时间的推移实现并超越人类水平的性能。

下面的文章介绍了 Claude 3.5 计算机使用模型,它标志着一个突破性的里程碑,成为第一个通过图形用户界面 (GUI) AI 代理引入计算机使用的前沿 AI 模型的公开测试版。

将模型与框架分离

计算机用户代理 (CUA) 应被视为与 操作框架 和虚拟浏览器环境相分离的 独立模型

与强调基于网络的工作流程的 操作框架 不同,CUA 专注于管理本地应用程序、文件和系统级任务,例如导航图形用户界面和执行命令。

这种区别至关重要,因为 CUA 解决了特定于桌面接口的挑战,包括操作系统特定行为和应用程序集成。

将 CUA 视为独立模型,可以实现量身定制的优化,补充操作框架的更广泛能力。这两个模型结合在一起,可以为本地和在线环境中的 AI 驱动自动化提供整体解决方案。

考虑下面的图像…

该图形显示了 CUA 模型如何与操作环境分开。

OpenAI 计划在 API 中公开驱动操作的模型 CUA,以便开发者可以使用它构建自己的计算机使用代理。

该模型处理原始像素数据,以理解屏幕上的上下文和内容,并使用虚拟鼠标和键盘完成操作。

它可以导航多步骤任务,处理错误,并适应意外变化。

这使得 CUA 能够在广泛的数字环境中执行任务,例如填写表单和浏览网站,而无需特定的 API。

在用户指令的指导下,CUA 通过一个整合感知、推理和行动的迭代循环进行操作:

感知

该模型将计算机的屏幕截图整合到其上下文中,提供系统当前状态的视觉快照,从而帮助其确定行动。

推理

通过链式思维过程,CUA 通过考虑当前和之前的截图及操作来评估下一步。这一推理过程使模型能够跟踪其进展,审查中间步骤,并根据需要进行调整,从而提高整体任务性能。

操作

CUA 然后执行任务,例如点击、滚动或输入,直到任务完成或需要进一步的用户输入。虽然它自动化了大多数操作,但 CUA 在执行敏感任务之前会提示用户确认,例如输入登录凭据或处理 CAPTCHA 挑战。

AI Agent Computer Interface (ACI). 革新用户交互 & AI 代理如何超越模型走向框架,重新定义计算机接口的未来

代理工作流程

OpenAI Operator 具有观察、创建和动态更新工作流程的能力,能够根据不断变化的输入和条件进行调整。

这些工作流程可以安排在特定时间或间隔运行,自动化任务和流程,而无需持续的人工干预。

通过观察用户输入和系统状态,Operator 可以实时调整工作流程以优化效率。

调度的工作流程允许例行任务自动处理,使用户免于重复操作。

Operator 同时创建和修改工作流程的能力确保其能够适应不断变化的需求,与其他模型如 CUA 无缝集成,以实现更广泛的任务自动化。

这种工作流程管理的灵活性增强了整体自动化体验,允许在各种任务和环境中进行即时和长期规划。

账户网站

根据OpenAI的内容,OpenAI Operator中似乎有一个账户网站选项卡

这似乎是框架中的一个部分,允许AI通过存储的用户账户管理和与不同网站进行交互。

此功能使Operator能够安全地访问和自动化用户有账户的网站上的任务,例如登录、管理设置或执行其他经过身份验证的操作。

根据文档,账户网站选项卡组织并存储各种网站的凭据和访问点,使Operator能够根据需要检索或更新信息。它可能包括以下功能:

  1. 1. 账户管理: 存储和安全管理登录凭据及其他敏感数据。
  2. 2. 网站交互: 自动化需要用户身份验证的网站上的任务,例如提交表单或检索数据。
  3. 3. 安全性和隐私: 确保敏感信息的正确处理,包括加密和访问控制。
  4. 4. 任务自动化: 允许AI在用户有账户的网站上执行重复或定期的操作。

障碍与考虑

在截图和流媒体屏幕交互方面有一些考虑,这可能通过 CUA API 进行探索是有趣的。有评论指出,使用截图会导致连续性中断。

AI 代理在浏览互联网时面临弹出窗口和干扰性图形的挑战,研究表明浏览代理在这些元素的攻击下存在漏洞,强调了监督的必要性。

直接访问用户的机器存在风险,这就是为什么使用虚拟机,例如 Anthropic 使用的 Docker 环境,提供了更安全的替代方案。

虚拟机提供了更少的采用障碍,模拟了超越浏览器的完整 PC 使用。

对于复杂的长期任务,仍然需要强有力的人类监督,这可能导致网站与像 OpenAI 这样的 AI 提供商合作,创建安全环境——本质上是一个安全 AI 交互的市场。

我喜欢虚拟浏览器的想法,以及一个位于虚拟世界与用户之间的过滤器,用户决定从他们的个人空间共享哪些数据到虚拟浏览器环境。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询