微信扫码
添加专属顾问
我要投稿
OpenAI o3-mini 颠覆了我对 AI 竞赛的预期。 核心内容: 1. OpenAI 与 DeepSeek R1 的竞争背景 2. o3-mini 的创新点:快速、高效的推理模型 3. o3-mini 与 DeepSeek R1 的性能比较分析
我反复公开抨击他们。我广泛地谈论了他们的开源竞争对手 DeepSeek R1,以及一个由中国研究人员组成的小团队如何在他们自己的游戏中基本上摧毁了 OpenAI。
我还谈到了 Operator,他们试图打造一个能够完全自主执行任务的实用“AI 代理”的失败尝试。
所以当 Sam Altman 宣布他们发布 o3-mini 时,我以为这又是一次试图窃取真正成功的 AI 公司风头的失败尝试。
我完全错了。O3-mini 太棒了。
OpenAI 的 o3-mini 是他们新的、改进的大型推理模型。
与立即响应的传统大型语言模型不同,推理模型旨在“思考”答案,然后再提出解决方案。而这个过程过去需要很长时间。
例如,当我将 DeepSeek R1 集成到我的算法交易平台 NexusTrade 中时,我将所有超时时间增加到了 30 分钟……仅仅为了一个问题。
我的应用程序代码轮询响应大约 30 分钟
我还将实现从传统的请求/响应方法更改为基于轮询的方法因为连接会直接超时。
然而,OpenAI 做了一件令人难以置信的事情。他们不仅制造了一个比他们之前的日常使用模型 GPT-4o 更便宜的推理模型……
GPT-4o 与 OpenAI o3-mini 的成本
而且它不仅比他们之前的最佳模型 O1 更强大……
O3 在博士水平的科学问题上比 O1-preview、O1 和 O1-mini 更好
而且它还非常快。比我用过的任何推理模型都要快得多。
而且,当被问到复杂问题时,它会完美地回答,甚至比 o1、DeepSeek 的 R1 以及我用过的任何其他模型都要好。
所以,我想对其进行基准测试。让我们比较一下 OpenAI 的 o3 和 1 月份最热门的语言模型 DeepSeek R1。
要求 LLM 查询符合此标准的股票
我们将对这两个模型进行并排比较,以完成一项复杂的推理任务:生成一个复杂的、语法有效的 SQL 查询。
我们将根据以下几点比较这些模型:
前两个类别是不言自明的。以下是我们如何比较成本。
我们知道 DeepSeek R1 的成本为 0.75 美元/百万输入 token 和 2.4 美元/百万输出 token。
来自 OpenRouter 的 R1 的成本
相比之下,OpenAI 的 o3 为 1.10 美元/百万输入 token 和 4.4 美元/百万输出 token。
OpenAI 的 O3-mini 的成本
因此,o3-mini 大约是每个请求的两倍成本。
但是,如果模型生成不准确的查询,则应用程序层中存在自动重试逻辑。
因此,为了计算成本,我们将查看模型重试的次数,计算发送的请求数量,并创建一个估计的成本指标。 R1 的基线成本将是 'c',所以在没有重试的情况下,因为 o3-mini 的成本是 '2c'(因为它贵两倍)。
现在,让我们开始吧!
我们将使用 LLM 生成语法有效的 SQL 查询。
此任务对于现实世界的 LLM 应用程序非常有用。通过将纯英语转换为数据库查询,我们将界面从按钮和鼠标点击更改为我们可以理解的东西——语言。
它的工作原理是:
对于此任务,我将从 R1 开始。我将要求 R1 向我展示一些高股息股票。这是请求:
Show me large-cap stocks with:
我曾两次分别要求模型执行此操作。在两个测试中,模型要么超时,要么找不到任何股票 ??
我发誓这不是精心挑选的。
当我深入研究日志时,我发现该模型正在努力生成准确的查询。
R1 生成的查询
仅从手动检查来看,我们看到:
最后,我必须直接检查数据库日志才能查看经过的时间。
数据库中的聊天日志截图
这些日志显示该模型在 41 分钟后最终放弃了!这显然不适合实时财务分析。
因此,对于 R1,最终分数是
R1 的表现不佳……
现在,让我们使用 OpenAI 的新 O3-mini 模型重复此测试。
我们将向 O3-mini 提出完全相同的问题。
与 R1 不同,速度的差异是天壤之别。
我在下午 6:26 提出了问题,并在 2 分 24 秒后收到了回复。
这包括 1 次重试尝试、1 次评估查询的请求和 1 次总结结果的请求。
最后,我得到了以下回复。
模型的回应
我们得到了符合我们查询的股票列表。像 Conoco、CME Group、EOG Resources 和 DiamondBack Energy 这样的股票的股息增长迅猛,债务权益比非常低,并且市值很大。
如果我们点击消息底部的“信息”图标,我们还可以检查查询。
O3-mini 生成的查询
通过手动检查,我们知道此查询符合我们的要求。因此,对于我们的最终等级:
对于这个例子,我们可以看到 o3-mini 在各个方面都优于 r1。它快几个数量级,成本相同,并且它针对复杂的财务分析问题生成了准确的查询。
能够以低于去年日常使用模型的价格完成所有这些,绝对令人难以置信。
现在,让我们总结一下这篇文章。
在 DeepSeek 发布 R1 之后,我承认我对 OpenAI 提出了很多批评。从极其昂贵到完全搞砸 Operator,再到发布一个缓慢、无法使用的玩具冒充 AI 代理,OpenAI 在 1 月份遭受了很多失败。
他们通过 O3-mini 弥补了所有这些。
该模型使他们以惊人的第一名重返 AI 竞赛。 O3-mini 速度快如闪电、极其准确且具有成本效益。与 R1 一样,我已将其集成到我的 AI 驱动的交易平台 NexusTrade 的所有用户中。
此版本展示了我们在 AI 方面取得的指数级进展。随着时间的推移,这些模型将以一小部分的成本变得越来越好。
我非常兴奋地看到它的发展方向。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-24
温度参数:调节AI输出的确定性与创造性平衡
2025-04-24
从搜索到解决方案:解锁火山 DeepSearch 的“三连跳” MCP 玩法
2025-04-24
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
2025-04-24
字节扣子空间 VS 智谱AutoGLM,谁家Agent更好用?(附邀请码)
2025-04-24
Function Calling已经过时 ,MCP才是真正的大模型接口标准
2025-04-24
大模型技术创新驱动的AI生态和应用演进
2025-04-24
除了MCP我们还有什么?
2025-04-24
LLM 推理引擎之争:Ollama or vLLM ?
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17