微信扫码
添加专属顾问
我要投稿
OpenAI新模型o3和o4-mini引领AI技术新突破,性能惊人! 核心内容: 1. o3和o4-mini模型全面工具访问与推理能力 2. o3和o4-mini在编程、数学、视觉等领域性能卓越 3. 首次引入图像推理"Thinking with Images",解锁视觉+文本推理新模式
OpenAI刚刚宣布推出其最新的o系列模型:o3和o4-mini,与以往模型不同,o3和o4-mini被设计为真正的AI系统,模型甚至能连续调用超过600次工具来完成一项艰巨任务,它们在理解和导航大型代码库(比如OpenAI自己的代码库)方面,超越了人类工程师,极大地提高了开发效率
这次发布会我有两个没想到:一是没想到o系列模型变成了一个融合的模型,另外一个是引入图像推理“Thinking with Images”,下面第一时间给大家划个重点
o3和o4-mini最显著的特点是首次实现了对ChatGPT内所有工具的智能使用和组合能力。它们可以搜索网络、分析上传的文件、处理视觉输入、生成图像,并且能够智能地判断何时以及如何使用这些工具来解决复杂问题。这些模型经过专门训练,能够在大约一分钟内提供详细且经过深思熟虑的答案,以适当的输出格式解决多方面的问题
OpenAI o3是目前最强大的推理模型,在编程、数学、科学、视觉感知等领域推动了技术边界。它在包括Codeforces、SWE-bench和MMMU在内的多项基准测试中创下新的记录。在由外部专家进行的评估中,o3在解决困难的现实世界任务时比OpenAI o1减少了20%的重大错误,特别是在编程、商业咨询和创意构思方面表现出色。早期测试者强调了它作为思维伙伴的分析严谨性,以及在生物学、数学和工程背景下生成和批判性评估新假设的能力
OpenAI o4-mini是一个针对快速、高效推理而优化的小型模型。尽管规模较小,但它在数学、编码和视觉任务方面表现出色。在2025年AIME数学竞赛中,当获得Python解释器访问权限时,o4-mini的得分高达99.5%,实际上已经饱和了这个基准测试。在专家评估中,它也在非STEM任务和数据科学等领域超越了前身o3-mini。由于其高效性,o4-mini支持比o3更高的使用限制,使其成为需要推理能力的高容量、高吞吐量应用的理想选择
o3和o4-mini首次能够将图像直接整合到思维链中,它们不仅能看到图像,还能通过图像进行思考。这解锁了融合视觉和文本推理的新型问题解决方式,在多模态基准测试中表现出色。用户可以上传白板照片、教科书图表或手绘草图,模型能够解释它们——即使图像模糊、颠倒或质量低下。借助工具使用能力,模型可以实时操作图像,作为推理过程的一部分进行旋转、缩放或转换
负责图像推理的华裔研究员Jiahui Yu解释图像推理(“Thinking with Images”)的重要性:
自最初的 o 系列发布以来,“图像思考”一直是我们在感知领域的核心战略之一。我们悄然发布了 o1 vision,作为对这一战略的惊鸿一瞥——如今,o3 和 o4-mini 的问世则以臻于完善的姿态将其变为现实,多模态技术对于 OpenAI 实现 AGI 的愿景至关重要
OpenAI o3和o4-mini可以完全访问ChatGPT内的工具,以及通过API中的函数调用访问用户自定义工具。它们经过训练,能够推理如何解决问题,选择何时以及如何使用工具,以快速产生详细且经过深思熟虑的答案。例如,用户可能会问:"今年夏季加利福尼亚的能源使用情况与去年相比如何?"模型可以搜索网络获取公用事业数据,编写Python代码建立预测模型,生成图表或图像,并解释预测背后的关键因素,将多个工具调用链接在一起
发布会最后还带来一个惊喜,OpenAI推出了Codex CLI——一个连接模型与用户本地计算机环境的轻量级命令行接口
它直接在用户的计算机上工作,旨在最大限度地发挥像o3和o4-mini这样的模型的推理能力,未来还将支持GPT-4.1等其他API模型。用户可以通过向模型传递屏幕截图或低保真草图,结合本地代码访问,从命令行获得多模态推理的好处
发布会现场演示环节开发人员利用Codex CLI工具展示了一个非常酷炫的实时摄像头ASCII艺术,让模型直接读取电脑摄像头画面,实时生成酷炫的ASCII动态画面
开源地址:
https://github.com/openai/codex
从今天开始,ChatGPT Plus、Pro和Team用户将在模型选择器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。ChatGPT Enterprise和Edu用户将在一周内获得访问权限。免费用户可以在提交查询前选择"Think"来尝试o4-mini。所有计划的速率限制与先前的模型集保持不变
OpenAI预计将在几周内发布具有完整工具支持的OpenAI o3-pro。目前,Pro用户仍可以访问o1-pro
成本:
o3和o4-mini今天也通过Chat Completions API和Responses API向开发者提供。Responses API支持推理摘要,能够在函数调用周围保留推理标记以获得更好的性能,并将很快支持模型推理中的内置工具,如网络搜索、文件搜索和代码解释器。
个人感觉今天的更新反映了OpenAI模型的发展方向:将o系列的专业推理能力与GPT系列更自然的对话能力和工具使用能力融合。通过统一这些优势,未来的模型将支持无缝、自然的对话,同时提供主动工具使用和高级问题解决能力
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-19
Exa:给 AI Agent 的 “Bing API”
2025-04-19
Chrome过时了,AI Agent需要自己的浏览器。
2025-04-19
n8n + mcp王炸组合:5个节点轻松搭建一个AI工作流
2025-04-18
火山引擎OS Agent解决方案、豆包1.5·UI-TARS模型发布
2025-04-18
前沿导读 | 基于大模型智能体的出行行为模拟
2025-04-18
大概念模型(Large Concept Models)会取代提示工程吗?
2025-04-18
AI 重要概念科普与热门技术解析
2025-04-18
我对于AI领域商业模式的思考
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-18
2025-04-16
2025-04-13
2025-04-13
2025-04-13
2025-04-12
2025-04-12
2025-04-11