AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


【深度分析】OpenAI o1是最强的推理模型,却不是最强模型!
发布日期:2024-09-20 06:21:23 浏览次数: 2911 来源:AI信息Gap


就在昨天(9月12日),OpenAI高调发布了全新的AI模型o1,同一时刻,各路媒体开始纷纷跟进。如果你以OpenAI o1作为关键词进行搜索,定然会看到诸如“最强大”、“地表最强”、“猎杀时刻”、“AI新时代”等等定语形容词。然而,虽然不可否认o1模型在推理方面确实很强,但当前版本的o1距离“最强”的完全体还有着不小的距离。且听我一一道来。

o1是最强的推理模型

o1最强,记得加上“推理”二字。

为什么推理如此重要?我在《OpenAI提出从AI到AGI通用人工智能的五级分类系统!》一文中曾详细解释OpenAI提出的从AI到AGI(通用人工智能)的五个发展阶段。这也代表着OpenAI的“野心”。

AI发展的第一阶段是基础AI,如当前的ChatGPT,能进行自然语言处理和简单对话,但推理和解决复杂问题的能力有限。第二阶段是推理者,具备更强的逻辑推理能力,能够解决博士级学术问题,并在多个领域展现专业知识。第三阶段是代理AI,能理解并执行用户需求,如预约、发邮件等。第四阶段是创新AI,具备自主研究和开发新技术的能力,推动科学进步。最高阶段是组织AI,代表AGI的最终形态,能够跨领域协同创新,提供复杂的专业服务。

ChatGPT处于第一阶段,是“基础AI”,那么,这次新推出的o1模型是第几阶段应该一目了然了吧。o1这个推理模型的发布也代表着OpenAI愿景的进一步推动,从第一阶段跨入了第二阶段,这也是为什么新模型不叫“GPT-5”,而是从1开始重新记录版本号,称为o1的原因。

基于o1模型的训练方式,其强大的推理能力几乎是必然。让我们来看OpenAI官方的介绍。

o1 models think before they answer, and can produce a long internal chain of thought before responding to the user.

简单来说,o1模型和GPT-4o不同的是,GPT-4o几乎可以做到实时响应,而o1则会在回答之前执行精细化的“思考”,即内部思维链(internal chain of thought)。思维链是什么?是让AI模型模拟人类思考过程的一种技术手段,使得AI模型更“聪明”,从而获得更高质量的输出结果。思维链技术经常被用在提示工程中。更详细的介绍可以参考我这篇文章《思维链(Chain-of-Thought)技术的背后,是人类思考问题的方式!》。

在这样的训练方式下,o1模型取得了亮眼的标准化测试成绩:在国际数学奥林匹克(IMO)考试中正确率达到了惊人的83%,而GPT-4o的正确率仅有13%,在物化生等复杂学科的高难度基准任务上,表现与博士生相当

也正因此,有了OpenAI宣传的AI基准测试的结果对比图。o1o1-previewo1-mini在多个测试中大幅超越GPT-4o,比如GPQA (General Purpose Question Answering),测试模型在多领域科学问题上的推理能力,以及MATH-500,专注于数学推理的测试。

也正因为o1模型能够在回答问题前自主推理,它的安全性能很高,更不容易被“越狱”。这也是OpenAI大力宣传的一点。上一代的GPT-4o在越狱测试中的得分仅为22(满分100分),而o1-preview模型则取得了84的高分。

所以,o1是最强的,“推理”,模型。

o1还达不到“最强”模型

“看,这只是一只普通的、会拉屎的兔子而已。”

1. 以时间换质量

当前的o1模型是以时间换输出质量。基于之前讨论的训练方式,o1模型在回答前需要先“思考”,即推理,然后回答问题。

以OpenAI官方给出的案例为例,当我们输入问题“Give me five countries with letter A in the third position in the name”,GPT-4o在3秒内即给出了答案,但回答错误;o1-mini则用时9秒,回答正确;o1-preview更是花了32秒回答正确这个问题,其中思考时间长达30-31秒。

注意,o1模型是不区分简单问题还是复杂问题的,一律按照先思考、后回答的流程来给出答案。如果是一个非常复杂的任务或问题,那么这种思维链思考肯定是有意义的,但如果是普通模型就能解决的任务,那么完全没有必要来进入内部思维链。

2. 纯文本模型

当前的o1模型是一个纯文本模型,不具备多模态能力

在介绍o1时,OpenAI明确提到:“As an early model, it doesn't yet have many of the features that make ChatGPT useful, like browsing the web for information and uploading files and images”。意思是o1模型还无法处理文件、图片等类型的输入。

所以,在ChatGPT中如果你选择了o1模型,在输入框左侧的文件上传按钮会被自动隐藏。

而当你当前的会话中如果上传过文件或图片,此时你打开模型选择的下拉菜单,就会看到下面的提示:This model doesn't support file attachments。该模型不支持文件上传。

3. 使用场景有限

以上两点会直接导致一个结果:当前o1模型的使用场景有限

响应速度慢,推理能力强,意味着o1模型非常适合复杂的任务,和OpenAI宣传的一样,o1对于处理“难题”很擅长。而对于一般的任务,有种“大炮打蚊子”的感觉。另外,纯文本模型决定了o1的使用场景是受限的,对于需要多模态输入的任务中,当前的o1还难以胜任。

以上分析也和OpenAI特意强调的o1模型的适用人群吻合。OpenAI表示,o1特别适合那些需要处理复杂问题的专业领域,无论是科学研究代码开发,还是数学运算等相关领域。而OpenAI给出的3个例子无一不是垂直领域的使用案例,比如帮助医疗研究人员标注细胞测序数据,生成量子光学所需的复杂数学公式,帮助开发者构建和执行多步骤的工作流程。

基于此,o1模型更像是一个工程产品,而不是一个全新的AI基座模型。小伙伴们可以细想,OpenAI在发布GPT-4或者GPT-4o时有强调过特定的适用人群吗?

4. 使用成本太高

当前的o1模型使用成本太高

当下的o1模型还不是完全体,从目前已发布的模型名称就能看出来:o1-previewo1-mini。预览版本算是提前发布。

o1模型使用成本高体现在两个方面。

首先是使用权限。目前只有ChatGPT PlusTeam付费会员可以在ChatGPT获得o1模型的使用权限,并且已全面放开。开发者则可以通过API调用使用o1模型,但,划重点,只有使用等级5(usage tier 5)的账号有权限调研o1模型。o1在使用数量上的限制也很严格。ChatGPT Plus和Team会员每周可以使用30o1-preview50o1-mini对话。而o1API调用的数量限制为每分钟20次调用(20 RPM),这个数量是不足以大规模商用的。

其次是token的消耗方面。o1模型的训练方式决定了它在每一次回答时消耗的token数是巨大的,因为模型首先需要进入内部思维链进行“思考”,这一步就开始消耗token,然后输出答案,这一步继续消耗token。所以随便一个问题,很有可能就消耗上万个输出tokens,意味着几美元的问答成本。

目前o1-preview模型API定价为:15美元每百万输入tokens和60美元每百万输出tokens;o1-mini模型API定价为:3美元每百万输入tokens和12美元每百万输出tokens。

结语

OpenAI o1模型虽强,但也要理性看待,它并没有那么“神”乎其神。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询