AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


突发!OpenAI 刚刚发布代理Operator:AI进入Level 3,但只有美国Pro用户可以试用
发布日期:2025-01-24 06:40:50 浏览次数: 1520 来源:AI寒武纪
推荐语

OpenAI 发布新代理 Operator,AI 进入新阶段,仅美国 Pro 用户可用。

核心内容:
1. Operator 的功能及工作原理
2. 与其他类似产品的对比
3. 使用方法及安全性考虑

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


 

OpenAI 刚刚发布了名为 Operator 的研究预览版代理,它能够像人类一样浏览网页,执行各种在线任务。这款工具标志着AI 从被动工具向主动参与者的转变,预示着更智能、更便捷的数字生活方式的到来。目前,Operator 尚处于研究预览阶段,仅向美国地区的 Pro 用户开放

Operator 的工作原理

Operator 的核心驱动力是一个名为 计算机使用代理 (Computer-Using Agent, CUA) 的新型模型。CUA 结合了 GPT-4o 的视觉能力和通过强化学习获得的先进推理能力,使其能够与图形用户界面 (GUI) 进行交互。这意味着 Operator 可以像人类一样“看到”(通过屏幕截图)和“互动”(使用鼠标和键盘的所有操作)浏览器界面上的按钮、菜单和文本框(这个原理基本上和字节联合清华推出代理差不多,感兴趣的可以看我昨天写的这篇文章字节清华开源力作!UI-TARS原生AI智能体,人人都能拥有“智能助手”

与以往需要定制 API 集成的 AI 工具不同,Operator 直接利用用户每天使用的网页界面,无需复杂的后台对接,极大地扩展了 AI 的应用场景。它能够处理各种重复性的浏览器任务,例如填写表格、订购食品杂货,甚至制作表情包

更令人印象深刻的是,Operator 具备一定的 自我纠错能力。当遇到挑战或犯错时,它可以利用推理能力进行自我调整。如果遇到无法解决的问题,Operator 会将控制权交还给用户,实现人机协作的流畅体验

虽然 CUA 模型仍处于早期阶段,存在一些局限性,但在 WebArena 和 WebVoyager 这两个关键的浏览器使用基准测试中,它已经取得了最新的领先水平

如何使用 Operator

用户只需简单描述想要完成的任务,Operator 即可自动处理后续步骤。用户可以随时接管远程浏览器的控制权。考虑到安全性和隐私性,Operator 被训练为在需要登录、输入支付信息或解决 CAPTCHA 验证码等任务时,主动请求用户接管

Operator 还支持用户个性化工作流程。用户可以添加自定义指令,针对所有网站或特定网站设置偏好,例如在 Booking.com 上设置航空公司偏好。用户可以将常用提示保存到主页,以便快速访问,例如在 Instacart 上重复订购食品杂货

与浏览器多标签页功能类似,用户可以通过创建新的对话,让 Operator 同时运行多个任务,例如在 Etsy 上订购个性化珐琅杯,同时在 Hipcamp 上预订露营地

生态系统与用户

Operator 的发布标志着 AI 从被动工具转变为数字生态系统中的积极参与者。它不仅可以简化用户任务,还将为希望提供创新客户体验和提高转化率的企业带来代理的优势

OpenAI 正在与 DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等公司合作,确保 Operator 能够满足真实世界的需求,并尊重既有规范。除了商业合作,OpenAI 还看到了在公共部门应用中提高效率和可访问性的巨大潜力。他们正与斯托克顿市等组织合作,简化市民注册城市服务和计划的流程。

OpenAI 通过初期有限地向部分用户发布 Operator,旨在快速学习并根据真实世界的反馈改进其功能,在创新与信任和安全之间取得平衡。这种协作方式有助于确保 Operator 为用户、创作者、企业和公共部门组织带来有意义的价值

安全与隐私

确保 Operator 的安全使用是 OpenAI 的首要任务。他们为此设计了三层安全保障措施,以防止滥用并确保用户始终处于控制之中:

用户控制优先: Operator 被训练为确保用户始终处于控制之中,并在关键时刻请求用户输入。
接管模式: Operator 在用户需要在浏览器中输入敏感信息(如登录凭据或支付信息)时,会请求用户接管。在接管模式下,Operator 不会收集或截屏用户输入的信息。
用户确认: 在完成任何重要操作(例如提交订单或发送电子邮件)之前,Operator 应请求用户批准。
任务限制: Operator 被训练为拒绝某些敏感任务,例如银行交易或需要高风险决策的任务(例如决定职位申请)。
监视模式: 在特别敏感的网站(例如电子邮件或金融服务网站)上,Operator 需要用户密切监督其操作,以便用户直接发现任何潜在错误。

数据隐私管理: OpenAI 简化了 Operator 的数据隐私管理
训练退出: 在 ChatGPT 设置中关闭“改进所有人的模型”意味着 Operator 中的数据也不会用于训练 OpenAI 的模型。
透明的数据管理: 用户可以在 Operator 设置的“隐私”部分,一键删除所有浏览数据并退出所有网站。过去的 Operator 对话也可以一键删除。

抵御恶意网站: OpenAI 构建了防御机制,以防止恶意网站通过隐藏提示、恶意代码或网络钓鱼企图误导 Operator:
谨慎导航: Operator 被设计为检测和忽略提示注入。
监控: 专门的“监控模型”会监视可疑行为,并在出现异常情况时暂停任务。
检测管道: 自动化和人工审核流程不断识别新的威胁并快速更新安全措施。

OpenAI 意识到不良行为者可能会试图滥用这项技术。因此,Operator 被设计为拒绝有害请求并阻止不允许的内容。他们的审核系统可以发出警告,甚至对重复违规行为撤销访问权限,并且他们集成了额外的审核流程来检测和处理滥用行为。OpenAI 还提供了关于如何与 Operator 交互以遵守其使用政策的指南。

尽管 Operator 在设计时考虑了这些安全措施,但没有系统是完美无缺的,这仍然是一个研究预览版。OpenAI 致力于通过真实世界的反馈和严格的测试不断改进。

局限性

Operator 目前仍处于早期研究预览阶段。虽然它已经能够处理各种任务,但仍在学习和进化,并且可能会犯错。例如,它目前在处理复杂界面(如创建幻灯片或管理日历)时遇到挑战。早期的用户反馈将在提高其准确性、可靠性和安全性方面发挥至关重要的作用,帮助 OpenAI 为所有人改进 Operator

未来展望

  • • API 中的 CUA: OpenAI 计划很快在 API 中公开 Operator 的驱动模型 CUA,以便开发人员可以使用它构建自己的计算机使用代理。

  • • 增强功能: OpenAI 将继续提高 Operator 处理更长、更复杂工作流程的能力。

  • • 更广泛的访问: 一旦 OpenAI 对 Operator 在大规模应用中的安全性和可用性充满信心,他们计划将其扩展到 Plus、Team 和 Enterprise 用户,并在未来将其功能直接集成到 ChatGPT 中,从而解锁无缝的实时和异步任务执行

作者

OpenAI

基础研究贡献者: Casey Chu, David Medina, Hyeonwoo Noh, Noah Jorgensen, Reiichiro Nakano, Sarah Yoo

核心团队: Andrew Howell, Aaron Schlesinger, Baishen Xu, Ben Newhouse, Bobby Stocker, Devashish Tyagi, Dibyo Majumdar, Eugenio Panero, Fereshte Khani, Geoffrey Iyer, Jiahui Yu, Nick Fiacco, Patrick Goethe, Sam Jau, Shunyu Yao, Stephan Casas, Yash Kumar, Yilong Qin

负责人: Aaron Schlesinger (基础设施), Casey Chu (安全和模型准备), David Medina (研究基础设施), Hyeonwoo Noh (整体研究), Reiichiro Nakano (整体研究), Yash Kumar

参考:

https://openai.com/index/introducing-operator/

 



⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~




求赞??


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询