AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


OpenAI正式发布Operator,一款能操作浏览器的AI,打响2025智能体大战第一枪!
发布日期:2025-01-24 06:31:16 浏览次数: 1563 来源:AI信息Gap
推荐语

OpenAI 重磅推出 Operator,开启 2025 智能体大战!这是 AI 发展的重要里程碑,值得关注!

核心内容:
1. OpenAI 发布 Operator 的背景
2. Operator 与以往 AI 的区别
3. Operator 标志着 AI 进入新阶段

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2025我们继续出发。

如果说10天前的ChatGPT Tasks是OpenAI在AI Agent领域的一个试探,那么现在的Operator则是实打实的拉开了2025年AI Agent大战的帷幕。

北美时间1月23日,OpenAI官宣Operator Agent正式发布。文末附Operator直播发布视频完整版。

虽然大约一周前这个名为“Operator” AI Agent的信息就开始在网上发酵,对此有一定的心理预期,但真正看到它的亮相,还是令人眼前一亮。

按照OpenAI此前提出的从AI到AGI的五阶段,以ChatGPT为首的传统AI工具属于第一阶段,是“基础AI(Emerging AGI)”;以已发布的o1和即将发布的o3为首的推理模型属于第二阶段的“推理者(Reasoners)”;那么,今天发布的Operator则标志着AI的发展扎扎实实的进入了第三阶段:智能体(Agents)

你有没有觉得,以往的AI更像是一个“工具”: 比如ChatGPT、Kimi、DeepSeek等,需要你给出明确的指令才能执行特定任务,“写一篇文章”、“画一幅画”、“解一道题”。

而今天发布的Operator则更像是一个真正意义上的“助手”: 它已经具备了一定的自主性决策能力,可以理解你的模糊意图(理解-推理),并将任务分解成多个步骤(规划),自主地在浏览器中执行操作(执行-工具调用),最终完成任务。这本质上是一种从“被动处理信息”到“主动完成任务”的进化。

其实10天前发布的ChatGPT Tasks就已有一点这方面的雏形,比如能主动执行定时任务,但不多。真正的拐点还得是今天的Operator

比如你只需要告诉它,“帮我预定这家餐厅今晚7点的位置”。

Operator会自行打开浏览器,搜索该餐厅,选择,然后确定可预约的时间。

如果搜索后发现你选定的时间已经不可选了,Operator会主动提醒你。到最终确定预定前,会再次跟你核实,就像下面这样。

除了预定餐厅,Operator还能帮你买菜。你要做的只需要告诉它你想买哪些菜,支持手写。这里当然是用到了AI模型的视觉能力

Operator能自动打开浏览器,进入Instacart(美国的叮咚买菜),选定相应的菜品,加入购物车。这一切操作当然都是由AI自动完成的。

在真正下单前,你可以随意修改购物车,直接用自然语言告诉Operator就可以。

如果遇到问题,比如你还没有绑定付款方式,Operator会提醒你,直到下单成功。

当然,Operator可以玩的案例还很多,比如点外卖,订票等等。

除了前面说的“主动工作”,我还发现了其他几个Operator“炸裂”的亮点。

直接操作浏览器,无需通过API实现,这是Operator最核心、最具颠覆性的特点。要知道,不是所有的网站和应用都开放API,即使有,功能也往往受限。

Operator实现“操作浏览器”靠的是一个名为CUAComputer-Using Agent)的全新模型。CUA基于GPT-4o专门训练,继承了4o的视觉能力,能够和图形用户界面(GUI)直接交互。大白话说,就是Operator利用视觉能力通过“查看”屏幕截图来“理解”当前页面的内容,然后模拟鼠标和键盘操作和浏览器进行“互动”

这样的好处是不言而喻的,通用性强,不需要特定API的支持,也不需要为每个网站和应用单独适配API。

另外一点,Operator强调人机协作。Operator不是一个完全自主、不可控的黑盒,从上面的截图也可以看出,它在执行任务时会主动和你确认,尤其是重要操作,比如确认预定、付款。

划重点,这其中体现了一个非常非常重要的设计理念:Human in the loop(HITL)。HITL通常用于AI系统中,指的就是当AI在执行任务时,人类必须保持在场,参与、监督,以确保AI系统的安全性和可靠性。大白话,AI在干活,你在把关。



说了这么多Operator的介绍,但不得不承认,现在的Operator,还太

在OpenAI的演示中,有一个词被反复提到,那就是:research preview。OpenAI强调Operator还处于研究预览阶段,其实就是给用户打个预防针:别抱太高预期,毕竟是研究阶段的产品,要什么自行车

而不出意外的,Operator在演示中,也小小的“翻车”了2次。

比如,已经确定的可选时间,在接收到“立即执行”指令后,Operator却又表示,之前的可选时间其实不存在。

再比如尝试访问StubHub网站时,Operator遇到了重定向的问题。这下,连Sam Altman都是一脸懵逼。

其实,透过OpenAI的演示细想,Operator还存在挺多“问题”,比如只支持浏览器高度依赖GUI界面响应速度慢(毕竟要先理解页面内容,再执行操作)等等。


最后,Operator功能目前仅对每月200美元的ChatGPT Pro用户开放体验。其他用户的使用权限将逐步开放。和Sora一样,Operator也是以独立产品的形式推出的,链接是:operator.chatgpt.com

Operator直播发布视频(完整版)

结语

2025智能体大战,正式开启!



精选推荐

  1. 国内支付宝开通ChatGPT Plus和Claude Pro 2024最新教程!
  2. 『AI保姆级教程』无需手机号!三分钟注册ChatGPT账号!2024年最新教程!
  3. 『AI保姆级教程』手把手教你注册Claude账号!建议收藏!


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!????。关注我,AI之路不迷路,原创技术文章第一时间推送?。

小声哔哔:现在关注,你就是老粉了!


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询