微信扫码
与创始人交个朋友
我要投稿
在OpenAI为期12天的活动落幕之际,他们发布了最新的人工智能模型o3,以及它的经济版兄弟o3 mini。
关于跳过o2版本,OpenAI提到了Telefonica的O2品牌是部分原因,但我们猜测这也是他们战略上的一步,意在表明这是一个巨大的飞跃。Sam Altman在宣布时幽默地表示,命名并非他们的强项,但这个选择似乎是经过深思熟虑的。
o3模型特别关注推理能力,它被设计来处理编程、数学和一般智能中的复杂任务。OpenAI选择从公共安全测试开始,而不是直接全面推出,我们认为这显示了他们谨慎和透明的方法。如果早期结果持续良好,o3可能会成为AI模型发展中的一个重要里程碑。
O3是OpenAI最新的前沿模型,旨在提升在一系列复杂任务中的推理能力。与它的小型对应版本o3 mini一同发布,它专注于解决编程、数学和一般智能中的挑战。
我们注意到o3在强调更难的基准测试方面值得关注,这些基准测试以之前模型未能完全解决的方式测试推理。OpenAI强调了o3相较于o1的改进,将其定位为一个能够处理更复杂问题解决的系统。
目前,O3还没有对公众开放。OpenAI从公共安全测试开始,邀请研究人员探索它的优势和局限性。我们认为这种协作方法反映了对AI模型能力日益增强时需要仔细评估的日益增长的认识。
O3直接建立在o1的基础上,但在关键领域的改进是显著的。OpenAI将o3定位为一个旨在处理更复杂推理任务的模型,其在基准测试中的性能提升反映了这一点。
我们注意到两个模型之间的一些明显差异(见上图)。在软件风格的编码任务上,O3在Bench Verified上达到了71.7%的准确率,这是相比o1的一个显著提高。
同样,在竞技编程中,o3达到了2727的ELO分数,远远超过了o1之前的1891。这些数字表明,该模型专注于提高解决现实世界编码挑战的能力。
改进不仅限于编码。o3在数学推理上也表现出色,在AIME 2024上得分96.7%,相比之下o1为83.3%。这些增益表明,该模型能够处理更微妙和困难的问题,更接近于传统上由人类专家主导的基准。
O1与o3在数学和科学上的对比。来源:OpenAI
在科学相关基准上的进步同样明显。在衡量博士级科学问题的GPQA Diamond上,o3的准确率为87.7%,高于o1的78%。这些增益展示了模型在跨学科解决技术要求高的问题的能力有了广泛的提高。
o3进展特别值得注意的一个领域是在EpochAI前沿数学基准上。
这被认为是AI中最具挑战性的基准之一,因为它由新颖的、未发表的问题组成,这些问题故意设计得比标准数据集困难得多。这些问题中的许多都处于数学研究的水平,通常需要专业数学家花费数小时甚至数天来解决一个问题。当前的AI系统通常在这个基准上得分低于2%,突出了其难度。
Epic AI的前沿数学之所以重要,是因为它将模型推向了超越死记硬背或优化熟悉模式之外的领域。相反,它测试了它们泛化、抽象推理以及解决以前未遇到过的问题的能力——这些特质对于推进AI推理能力至关重要。o3在这个基准上的得分为25.2%,看起来是一个显著的进步。
o3最引人注目的成就之一是其在ARC AGI基准上的表现,这是一个被广泛认为是评估AI通用智能的黄金标准的测试。
由François Chollet在2019年开发的ARC(抽象和推理语料库)专注于评估AI学习和从最小示例中泛化新技能的能力。与传统基准测试通常测试预训练知识或模式识别不同,ARC任务旨在挑战模型即时推断规则和转换——人类可以直观解决但AI历史上一直难以处理的任务。
ARC AGI特别困难的原因在于,每个任务都需要不同的推理技能。模型不能依赖记忆解决方案或模板;相反,它们必须适应每个测试中的全新挑战。例如,一个任务可能涉及识别几何变换中的模式,而另一个任务可能需要对数值序列进行推理。这种多样性使ARC AGI成为衡量AI真正思考和学习人类方式的强大指标。
你能猜出输入是如何转换为输出的逻辑吗?来源:OpenAI
o3在ARC AGI上的表现标志着一个重要的里程碑。在低计算设置下,o3在半私有保留集上得分76%,这个数字远远高于任何以前的模型。
当在高计算设置下测试时,它取得了更令人印象深刻的88%,超过了通常被认为是人类水平表现的85%的阈值。这是AI首次在这个基准上超越人类,为基于推理的任务设定了新的标准。
我们认为这些结果特别值得注意,因为它们展示了o3处理需要适应性和泛化而不是死记硬背或蛮力计算的任务的能力。这是一个明显的迹象,表明o3正在更接近真正的通用智能,超越了特定领域的能力,进入以前被认为专属于人类的领域。
o3 mini与o3一起推出,作为一种成本效益的替代品,旨在将先进的推理能力带给更多用户,同时保持性能。OpenAI将其描述为重新定义推理模型中的“成本性能前沿”,使其能够用于需要高准确度但需要平衡资源限制的任务。
o3 mini的一个突出特点是其自适应思考时间,它允许用户根据任务的复杂性调整模型的推理努力。对于更简单的问题,用户可以选择低努力推理以最大化速度和效率。
对于更具挑战性的任务,更高的推理努力选项使模型能够以接近o3本身的水平运行,但成本仅为一小部分。这种灵活性对于在不同用例中工作的开发人员和研究人员特别有吸引力。
现场演示展示了o3 mini如何兑现其承诺。例如,在编码任务中,o3 mini被要求生成一个Python脚本来创建一个具有交互式UI的本地服务器以进行测试。尽管任务复杂,但模型表现良好,展示了其处理复杂编程挑战的能力。
使用o3 mini在现场演示中创建的交互式UI。来源:OpenAI
我们认为o3 mini是一个实用的解决方案,适用于成本效益和性能必须对齐的场景。
OpenAI对o3和o3 mini的安全测试采取了主动方法,通过公共安全评估程序向研究人员开放访问,以便在模型完全发布之前进行评估。
OpenAI对o3的安全策略的一个核心特点是审议对齐,这是一种超越传统安全方法的方法。下图突出了审议对齐与其他方法(如RLHF(带有人类反馈的强化学习)、RLAIF(带有AI反馈的强化学习)和推理时细化技术,如Self-REFINE)的不同。
来源:OpenAI
在审议对齐中,模型不仅仅依赖静态规则或偏好数据集来确定提示是否安全或不安全。相反,它使用其推理能力实时评估提示。上图说明了这个过程:
目前,o3和o3 mini尚未广泛可用,但OpenAI已通过其安全测试程序向研究人员开放访问。
至于公开可用性,OpenAI已经分享了一个初步的时间表。o3 mini预计将在1月底之前推出,提供一个成本效益的推理任务选项。完整的o3发布将紧随其后,尽管OpenAI强调其时间表取决于在安全测试阶段获得的反馈和见解。
我们认为这种谨慎的方法是一个积极的步骤,优先进行彻底评估并与用户需求深思熟虑地对齐,同时在整个开发过程中保持透明度。
O3和o3 mini突出了AI系统的复杂性日益增长以及负责任地发布它们的挑战。虽然基准测试令人印象深刻,但我们发现自己更感兴趣的是这些模型引发的问题:它们在现实世界场景中的表现如何?安全措施是否足够强大以应对大规模的边缘案例?
OpenAI的谨慎推出是一种方法,但是否找到能力与问责之间的正确平衡将取决于这些模型最终的使用和评估方式。
尽管如此,o3在推理和适应性方面的承诺不容忽视,它提供了下一代AI可能实现的一瞥。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-08
Anthropic发布的MCP,彻底打开了企业级 AI 的想象空间...
2025-01-08
仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o
2025-01-08
OA集成AI大模型简单实践-我把大模型集成到致远OA中系列
2025-01-08
手机「自动驾驶」大揭秘!vivo万字综述探讨大模型手机自动化
2025-01-08
不只 5090,英伟达还发布了最小的「AI 超算」与最大的世界模型
2025-01-07
大模型推理引擎国产化思考和实践
2025-01-07
AI Agents的崛起,创业公司及巨头的agents布局版图
2025-01-06
何宝宏:大语言模型上半场已进入“垃圾时间”
2024-05-28
2024-08-13
2024-04-26
2024-08-21
2024-06-13
2024-08-04
2024-07-09
2024-09-23
2024-04-11
2024-07-18