支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


OpenAI:就你们也配做智能体?

发布日期:2025-04-23 14:31:05 浏览次数: 1529 作者:AI顿悟涌现时
推荐语

OpenAI的新推理模型o3和o4-mini在性能和价格上都带来了革命性的突破。

核心内容:
1. o3和o4-mini在关键基准测试中的卓越表现
2. 新模型融合ChatGPT功能后的测试分数提升
3. o4-mini的高性价比及其对智能体创业市场的影响

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

OpenAI吹响市场清洗号角。


4月17日,OpenAI发布了全新的推理模型o3和o4-mini。
着实令人意外!因为前天新版本大模型GPT-4.1刚刚发布,业内以为短时间内OpenAI不会再发新模型,此前Altman明确表示过不会再单独发布o3模型,要将其融合进GPT 5一起提供给用户。没想到,这次大料接着一个大料!

这次o3和o4-mini除了在Codeforces、SWE-bench、MMMU等关键基准测试中创造历史频频登顶之外,更值得关注的是,新模式在融合了ChatGPT的联网搜索、python环境、本地搜索、结构化数据等各种功能后,测试分数再次大幅提高,令人眼前一亮。

图片
两款新的推理模型,还首次推出了图像推理,各方网友实测显示,新模型能通过用户随手拍摄的照片,仅靠图片内容分析出图片所处的准确地理位置。
更令人兴奋的是,更小更快更便宜的o4-mini,基准测试数据并不输o3!
价格更是爆炸性!
o4-mini百万token输入价格为1.1美金,输出是4.4美金,缓存命中0.28,比GPT-4.1都便宜!
这真不得不好好感谢DeepSeek,能把OpenAI逼到这种程度!
但另一方面,OpenAI的新模型却实实在在地对现有GenAI大模型创业市场进行了清洗!可以说到了血腥清洗的程度!
GPT-4.1发布,市场还认为其编程能力一般,不足为惧。但o3和o4-mini不仅吞下了编程,而且其模型内能力加上ChatGPT整合服务,直接吞下了通用AI Agent智能体市场。
  • OpenAI有首屈一指的基础模型技术,又有领先的各种类型强化学习技术,能精确分配智能体服务的哪些部分采用模型内服务,哪些引用外部流程技术。
  • 此次,o3和o4-mini使用自己的python环境,直接解决了大量数学、科学和编程智能体需求。而上周国内知道创宇刚刚发布的AiPy也是这一思维,利用python编程语言强大的软件库生态,搭建大模型专用python use来扩展能力边界。
  • 不过,现在看起来o3和o4-mini已经直接将python大量软件库,内化成模型内服务,不需要在本地大量加载相关库,就能高效完成相关服务。
关于python use和代码解释器的潜力,感兴趣的读者可以点击阅读《国产AiPy把OpenAI雪藏的功能发扬光大,开源本地部署还老电脑可用》。
在此之外,为了更进一步延伸自己的代码能力,OpenAI 直接拿出了一款开源的本地代码智能体:Codex CLI。请注意关键词:开源、本地部署、命令行工具、轻量级!
Codex CLI能在极低的本地资源占用下,帮你完成已有的编程任务!
这也是AiPy的目标,且AiPy当下也是命令行工具的形态存在。以AiPy的体验来看,这一目标已经完成得非常不错,配置极低的老旧电脑都能使用。
猎杀模式已经开启,这还让智能体创业团队怎么活?
实际上,OpenAI已经推出了大量AI Agent智能体服务,且一直都在朝着更简洁完善的开发者服务、更低的本地资源占用、更高效的模型内服务的方向稳步发展。
目前包括ChatGPT tasks、Operator 、Deep Research以及开源的智能体编排框架Agents SDK,实际上更早之前的GPTs也可以视作智能体形态的尝试。
现在看起来,除了Operator的computer use计算机控制功能还有价值,Agents SDK能为企业市场定制本地部署版服务,其他服务在o3和o4-mini面前已经处于淘汰边缘。
AI顿悟涌现时更加期待GPT 5和A-SWE全能编程智能体了。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询