AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


OpenAI o1-mini:优化成本效益的高效推理模型
发布日期:2024-09-13 08:25:56 浏览次数: 1642



我们发布了OpenAI o1-mini,一款具有成本效益的推理模型。o1-mini在STEM领域,特别是数学和编程方面表现出色——在AIME和Codeforces等评估基准上几乎匹敌OpenAI o1的表现。我们预计o1-mini将成为在需要推理而不涉及广泛世界知识的应用中更快、更具成本效益的模型。
今天,我们向Tier 5 API用户(在新窗口中打开)推出了o1-mini,其成本比OpenAI o1-preview便宜80%。ChatGPT Plus、团队、企业和教育用户可以将o1-mini作为o1-preview的替代选择,享受更高的速率限制和更低的延迟(参见模型速度)。
优化STEM推理
像o1这样的大型语言模型在预训练时使用了大量的文本数据集。虽然这些高容量模型拥有广泛的世界知识,但对于实际应用来说,它们可能会昂贵且运行速度较慢。相比之下,o1-mini是一款在预训练过程中针对STEM推理进行优化的较小模型。经过与o1相同的高计算量强化学习(RL)管道训练后,o1-mini在许多有用的推理任务上实现了与o1相当的表现,同时显著提高了成本效益。
在要求智能和推理能力的基准测试中,o1-mini与o1-preview和o1的表现相当。然而,在需要非STEM事实知识的任务上,o1-mini的表现较差(参见局限性)。
数学表现与推理成本比较

数学:在高中AIME数学竞赛中,o1-mini的得分为70.0%,与o1的74.4%具有竞争力,且成本明显更低,同时也优于o1-preview的44.6%。o1-mini的得分(约答对11/15道题)使其位列全美约前500名高中生。

编程:在Codeforces竞赛网站上,o1-mini的Elo评分为1650,接近o1的1673,并且高于o1-preview的1258。这个Elo评分将该模型排在Codeforces平台上约86%的程序员之上。o1-mini还在HumanEval编程基准测试以及高中级别的网络安全夺旗挑战赛(CTF)中表现出色。

STEM:在一些需要推理的学术基准测试中,如GPQA(科学)和MATH-500,o1-mini的表现优于GPT-4o。然而,在诸如MMLU的任务上,o1-mini表现不如GPT-4o,并且由于缺乏广泛的世界知识,o1-mini在GPQA上的表现也落后于o1-preview。

人类偏好评估:我们让人工评估员在多个领域的复杂、开放式提示下对o1-mini和GPT-4o进行比较,采用与o1-preview对比GPT-4o相同的方法。与o1-preview相似,o1-mini在需要大量推理的领域中更受青睐,但在语言集中的领域中,GPT-4o更受偏好。

模型速度
作为一个具体的例子,我们对比了GPT-4o、o1-mini和o1-preview在一个文字推理问题上的回答。虽然GPT-4o未能正确回答,但o1-mini和o1-preview都答对了,且o1-mini比o1-preview快3到5倍得出了答案。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询