微信扫码
与创始人交个朋友
我要投稿
OpenAI 推出全新功能,让 AI 代劳网页任务,太酷啦! 核心内容: 1. Operator 是什么及功能特点 2. CUA 是什么及重要性 3. Operator 的应用与合作领域
1月23日,OpenAI推出了一项全新功能——Operator,这是一款能够自主使用浏览器完成任务的AI代理工具,现已向美国的Pro用户开放。(感觉我之前买的 Pro 值回票价!)
Operator
01
Operator是一种基于新模型Computer-Using Agent (CUA) 的研究预览版工具。它结合了GPT-4o的视觉能力和通过强化学习优化的高级推理能力,能够模拟人类操作浏览器的行为,包括点击、滚动和输入文本。
比如希望预订罗马的高评分一日游。通过Operator,你只需描述需求,它就能完成从搜索到选定「TripAdvisor推荐」最佳行程的全过程。这种能力的核心是Operator可以“看”网页并进行交互,而无需借助API集成。
Operator正在与多个知名公司展开合作,包括DoorDash、Uber、Instacart等,以优化任务执行效率。此外,它还探索在公共领域中的应用,例如协助居民更便捷地注册城市服务。
CUA
02
作为Operator的核心技术,**Computer-Using Agent (CUA)**,代表了AI技术的新高度,能够像人类一样与图形用户界面(GUI)互动,为未来的数字世界打开了新篇章。而 Operator 则是CUA技术的首个落地应用。
CUA(Computer-Using Agent) 是一个通用界面模型,结合了GPT-4o的视觉能力和强化学习训练的高级推理能力,能够通过观察和操作屏幕上的按钮、菜单和文本框等元素,与图形用户界面进行交互。这种能力不需要特定的API支持,使CUA可以直接使用人类日常使用的数字工具和网页。
CUA的关键能力包括:
这使CUA能够在多样化的数字环境中执行复杂任务,例如填写表单、处理网页导航等,极大地扩展了AI的应用场景。
CUA的背后凝聚了多模态理解与推理领域的多年研究成果:
CUA在多个业界基准测试中刷新了记录,展现了其广泛适应能力:
CUA能够通过更多的操作步骤实现性能提升,但与人类的表现仍有一定差距,尤其是在更复杂的任务中。
Have a
Try!
03
我的pro账号终于排上了用场!!!
我尝试着让 AI 帮忙安排一个去日计划~
先大概说个计划
Operator 开始帮我上网搜索做攻略
帮我订酒店
和我互动询问我的意见
帮我订机票
需要人工验证的时候就把我叫过去Take Control。
这个时候想起我了。。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-05-28
2024-08-21
2024-04-26
2024-06-13
2024-09-23
2024-08-04
2024-07-09
2024-07-01
2024-07-18
2025-01-24
2025-01-24
2025-01-24
2025-01-23
2025-01-22
2025-01-22
2025-01-21
2025-01-21