AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务
发布日期:2025-01-24 15:10:53 浏览次数: 1728 来源:Renee 创业随笔
推荐语

OpenAI 推出全新功能,让 AI 代劳网页任务,太酷啦!

核心内容:
1. Operator 是什么及功能特点
2. CUA 是什么及重要性
3. Operator 的应用与合作领域

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

1月23日,OpenAI推出了一项全新功能——Operator,这是一款能够自主使用浏览器完成任务的AI代理工具,现已向美国的Pro用户开放。(感觉我之前买的 Pro 值回票价!)


Operator



01



什么是Operator?

Operator是一种基于新模型Computer-Using Agent (CUA) 的研究预览版工具。它结合了GPT-4o的视觉能力和通过强化学习优化的高级推理能力,能够模拟人类操作浏览器的行为,包括点击、滚动和输入文本。

比如希望预订罗马的高评分一日游。通过Operator,你只需描述需求,它就能完成从搜索到选定「TripAdvisor推荐」最佳行程的全过程。这种能力的核心是Operator可以“看”网页并进行交互,而无需借助API集成。

Operator正在与多个知名公司展开合作,包括DoorDash、Uber、Instacart等,以优化任务执行效率。此外,它还探索在公共领域中的应用,例如协助居民更便捷地注册城市服务。

Operator主要功能

  1. 任务自动化:适合处理重复性的浏览器任务,如填写表单、订购商品甚至制作趣味表情包。
  2. 多任务管理:可以同时运行多个任务,例如在Etsy上定制马克杯的同时预订露营地。
  3. 自定义工作流:用户可根据特定网站设置个性化指令,比如在预订航班时优先选择特定航空公司。
  4. 任务接管与协作:Operator会在需要输入登录或支付信息时请求用户接管,确保操作安全且直观。


CUA



02



什么是CUA?

作为Operator的核心技术,**Computer-Using Agent (CUA)**,代表了AI技术的新高度,能够像人类一样与图形用户界面(GUI)互动,为未来的数字世界打开了新篇章。而 Operator 则是CUA技术的首个落地应用。

CUA(Computer-Using Agent) 是一个通用界面模型,结合了GPT-4o的视觉能力和强化学习训练的高级推理能力,能够通过观察和操作屏幕上的按钮、菜单和文本框等元素,与图形用户界面进行交互。这种能力不需要特定的API支持,使CUA可以直接使用人类日常使用的数字工具和网页。

CUA的关键能力包括:

  1. 视觉感知:通过屏幕截图理解当前的界面状态。
  2. 推理规划:通过“链式思维”生成多步骤任务计划,动态调整操作步骤。
  3. 执行动作:通过虚拟鼠标和键盘完成点击、滚动和输入等操作。

这使CUA能够在多样化的数字环境中执行复杂任务,例如填写表单、处理网页导航等,极大地扩展了AI的应用场景。

技术亮点

CUA的背后凝聚了多模态理解与推理领域的多年研究成果:

  • 广泛任务能力:CUA能够在不同任务场景中切换,如处理网页表单或进行复杂的跨平台操作。
  • 智能纠错与自适应:在遇到问题时,CUA能够进行动态调整,优化任务完成路径。
  • 业界领先的性能指标:CUA在多个基准测试中表现出色:
    • OSWorld中,CUA的完整计算任务成功率达到38.1%;
    • WebArena中达到58.1%,在WebVoyager中高达87%。

评估与性能表现

CUA在多个业界基准测试中刷新了记录,展现了其广泛适应能力:

  • 浏览器任务
    • 在 WebArena(仿真真实网页环境)中,CUA成功率达到 **58.1%**。
    • 在 WebVoyager(真实网站测试,如Amazon、GitHub等)中,成功率高达 **87%**。
  • 操作系统任务
    • 在 OSWorld 中(评估AI对操作系统的控制能力,如Windows和Ubuntu),CUA达到了 38.1% 的成功率,接近人类的 **72.4%**。下面??是和同行的对比。(可以比不过人类,但是不能比不过同行。)

CUA能够通过更多的操作步骤实现性能提升,但与人类的表现仍有一定差距,尤其是在更复杂的任务中。


Have a

 Try!



03



试用

我的pro账号终于排上了用场!!!

我尝试着让 AI 帮忙安排一个去日计划~



先大概说个计划




Operator 开始帮我上网搜索做攻略




帮我订酒店




和我互动询问我的意见




帮我订机票




需要人工验证的时候就把我叫过去Take Control。

这个时候想起我了。。




53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询