我要投稿

刚刚，OpenAI重磅发布o3和o4-mini多模态推理能力爆炸式提升！！！

发布日期：2025-04-17 05:34:13 浏览次数： 1591 作者：机智流

提示词

https://openai.com/index/thinking-with-images/ 将这个网页里面的内容输出为一篇图文并貌的微信公众号推文。

2025年4月16日，OpenAI发布了其最新的人工智能模型o3和o4-mini，这两款模型在视觉推理领域取得了突破性进展。据OpenAI介绍，这些模型不仅能够“看到”图像，还能在推理链中“思考”图像，显著提升了处理视觉信息的能力。它们可以对用户上传的图像进行裁剪、缩放、旋转等操作，无需依赖单独的专用模型。此外，这些模型还能与网络搜索、Python数据分析和图像生成等工具结合，提供多模态的智能体验，为用户带来前所未有的交互方式。

这项技术的发展可能改变我们与AI交互的方式，使其更直观、更贴近人类处理视觉信息的方式。以下，我们将详细介绍这些模型的实际应用、性能表现以及未来的发展方向。

图像推理实战

OpenAI通过一系列示例展示了o3和o4-mini在视觉推理方面的强大能力。这些示例不仅体现了模型的技术实力，也展示了其在实际场景中的应用潜力。

示例一：读取笔记本文字

在一个示例中，模型分析了一张笔记本照片，照片中的文字是倒置的。模型通过旋转图像并裁剪到文字区域，成功读取了内容：“2月4日 - 完成路线图”。整个推理过程仅耗时20秒，展示了模型在处理复杂视觉信息时的效率。

（注：原文中包含一张展示笔记本文字的图像，建议访问原文查看。）

示例二：解决迷宫

另一个引人注目的示例是模型解决了一个迷宫问题。用户上传了一张迷宫图像，模型在1分44秒内完成了推理，不仅找出了正确路径，还用红线绘制了路径，生成了一张已解决的迷宫图像。这一过程涉及图像处理技术，如阈值处理和膨胀操作，体现了模型在复杂视觉任务中的能力。

（注：原文中包含迷宫及其解决路径的图像，建议访问原文查看。）

这些示例表明，o3和o4-mini能够处理多样化的视觉任务，从简单的文字识别到复杂的路径规划，为用户提供了强大的工具。

性能基准

为了评估o3和o4-mini的性能，OpenAI在多个视觉任务基准测试中将其与之前的模型GPT-4o和o1进行了对比。测试均在高“推理努力”设置下进行，以确保结果反映模型的最大潜力。以下是详细的性能数据：

基准测试	任务描述	GPT-4o	o1	o4-mini	o3
MMMU	大学水平视觉问题解决	68.7%	77.6%	81.6%	82.9%
MathVista	视觉数学推理	61.4%	71.8%	84.3%	87.5%
VLMs are Blind	视觉感知基础	50.4%	57.0%	87.3%	86.2%
CharXiv-描述性	科学图表描述	85.3%	88.9%	94.3%	95.0%
CharXiv-推理	科学图表推理	52.7%	55.1%	72.0%	75.4%
V*	视觉搜索基准	73.9%	69.7%	94.6%	95.7%

关键观察

显著提升
：o3和o4-mini在所有测试中均超越了GPT-4o和o1，尤其在MathVista和V*基准测试中表现突出。
V*基准的突破
：o3在V*基准测试中达到了96.3%的准确率，几乎完全解决了这一视觉搜索任务，标志着视觉推理技术的重大进步。
无浏览推理
：这些模型在不依赖外部浏览的情况下，通过图像思维实现了性能提升，展示了其内在推理能力的强大。

这些结果表明，o3和o4-mini在视觉推理任务中树立了新的行业标杆，为学术研究和实际应用提供了更强大的工具。

局限性与未来方向

尽管o3和o4-mini取得了令人瞩目的成就，但它们仍存在一些局限性，需要进一步改进：

局限性	描述
推理链过长	模型可能执行冗余的工具调用和图像操作，导致推理过程复杂且耗时。
感知错误	模型可能出现基本的感知错误，即使工具调用正确，也可能导致最终答案错误。
可靠性问题	多次尝试可能产生不同的推理过程，导致结果不一致，影响可靠性。