微信扫码
与创始人交个朋友
我要投稿
就在昨天(9月12日),OpenAI高调发布了全新的AI模型o1
,同一时刻,各路媒体开始纷纷跟进。如果你以OpenAI o1
作为关键词进行搜索,定然会看到诸如“最强大”、“地表最强”、“猎杀时刻”、“AI新时代”等等定语形容词。然而,虽然不可否认o1
模型在推理方面确实很强,但当前版本的o1
距离“最强”的完全体还有着不小的距离。且听我一一道来。
o1
是最强的推理模型说o1
最强,记得加上“推理”二字。
为什么推理如此重要?我在《OpenAI提出从AI到AGI通用人工智能的五级分类系统!》一文中曾详细解释OpenAI提出的从AI到AGI(通用人工智能)的五个发展阶段。这也代表着OpenAI的“野心”。
AI发展的第一阶段是基础AI,如当前的ChatGPT,能进行自然语言处理和简单对话,但推理和解决复杂问题的能力有限。第二阶段是推理者,具备更强的逻辑推理能力,能够解决博士级学术问题,并在多个领域展现专业知识。第三阶段是代理AI,能理解并执行用户需求,如预约、发邮件等。第四阶段是创新AI,具备自主研究和开发新技术的能力,推动科学进步。最高阶段是组织AI,代表AGI的最终形态,能够跨领域协同创新,提供复杂的专业服务。
ChatGPT处于第一阶段,是“基础AI”,那么,这次新推出的o1
模型是第几阶段应该一目了然了吧。o1
这个推理模型的发布也代表着OpenAI愿景的进一步推动,从第一阶段跨入了第二阶段,这也是为什么新模型不叫“GPT-5”,而是从1开始重新记录版本号,称为o1
的原因。
基于o1
模型的训练方式,其强大的推理能力几乎是必然。让我们来看OpenAI官方的介绍。
o1 models think before they answer, and can produce a long internal chain of thought before responding to the user.
简单来说,o1
模型和GPT-4o
不同的是,GPT-4o
几乎可以做到实时响应,而o1
则会在回答之前执行精细化的“思考”,即内部思维链(internal chain of thought)。思维链是什么?是让AI模型模拟人类思考过程的一种技术手段,使得AI模型更“聪明”,从而获得更高质量的输出结果。思维链技术经常被用在提示工程中。更详细的介绍可以参考我这篇文章《思维链(Chain-of-Thought)技术的背后,是人类思考问题的方式!》。
在这样的训练方式下,o1
模型取得了亮眼的标准化测试成绩:在国际数学奥林匹克(IMO)考试中正确率达到了惊人的83%,而GPT-4o
的正确率仅有13%,在物化生等复杂学科的高难度基准任务上,表现与博士生相当。
也正因此,有了OpenAI宣传的AI基准测试的结果对比图。o1
、o1-preview
和o1-mini
在多个测试中大幅超越GPT-4o
,比如GPQA (General Purpose Question Answering),测试模型在多领域科学问题上的推理能力,以及MATH-500,专注于数学推理的测试。
也正因为o1
模型能够在回答问题前自主推理,它的安全性能很高,更不容易被“越狱”。这也是OpenAI大力宣传的一点。上一代的GPT-4o在越狱测试中的得分仅为22(满分100分),而o1-preview
模型则取得了84的高分。
所以,o1
是最强的,“推理”,模型。
o1
还达不到“最强”模型“看,这只是一只普通的、会拉屎的兔子而已。”
当前的o1
模型是以时间换输出质量。基于之前讨论的训练方式,o1
模型在回答前需要先“思考”,即推理,然后回答问题。
以OpenAI官方给出的案例为例,当我们输入问题“Give me five countries with letter A in the third position in the name”,GPT-4o
在3秒内即给出了答案,但回答错误;o1-mini
则用时9秒,回答正确;o1-preview
更是花了32秒回答正确这个问题,其中思考时间长达30-31秒。
注意,o1
模型是不区分简单问题还是复杂问题的,一律按照先思考、后回答的流程来给出答案。如果是一个非常复杂的任务或问题,那么这种思维链思考肯定是有意义的,但如果是普通模型就能解决的任务,那么完全没有必要来进入内部思维链。
当前的o1
模型是一个纯文本模型,不具备多模态能力。
在介绍o1
时,OpenAI明确提到:“As an early model, it doesn't yet have many of the features that make ChatGPT useful, like browsing the web for information and uploading files and images”。意思是o1
模型还无法处理文件、图片等类型的输入。
所以,在ChatGPT中如果你选择了o1
模型,在输入框左侧的文件上传
按钮会被自动隐藏。
而当你当前的会话中如果上传过文件或图片,此时你打开模型选择
的下拉菜单,就会看到下面的提示:This model doesn't support file attachments。该模型不支持文件上传。
以上两点会直接导致一个结果:当前o1
模型的使用场景有限。
响应速度慢,推理能力强,意味着o1
模型非常适合复杂的任务,和OpenAI宣传的一样,o1
对于处理“难题”很擅长。而对于一般的任务,有种“大炮打蚊子”的感觉。另外,纯文本模型决定了o1
的使用场景是受限的,对于需要多模态输入的任务中,当前的o1
还难以胜任。
以上分析也和OpenAI特意强调的o1
模型的适用人群吻合。OpenAI表示,o1
特别适合那些需要处理复杂问题的专业领域,无论是科学研究、代码开发,还是数学运算等相关领域。而OpenAI给出的3个例子无一不是垂直领域的使用案例,比如帮助医疗研究人员标注细胞测序数据,生成量子光学所需的复杂数学公式,帮助开发者构建和执行多步骤的工作流程。
基于此,o1
模型更像是一个工程产品,而不是一个全新的AI基座模型。小伙伴们可以细想,OpenAI在发布GPT-4
或者GPT-4o
时有强调过特定的适用人群吗?
当前的o1
模型使用成本太高。
当下的o1
模型还不是完全体,从目前已发布的模型名称就能看出来:o1-preview
和o1-mini
。预览版本算是提前发布。
o1
模型使用成本高体现在两个方面。
首先是使用权限。目前只有ChatGPT Plus和Team付费会员可以在ChatGPT获得o1
模型的使用权限,并且已全面放开。开发者则可以通过API调用使用o1
模型,但,划重点,只有使用等级5(usage tier 5)的账号有权限调研o1
模型。o1
在使用数量上的限制也很严格。ChatGPT Plus和Team会员每周可以使用30次o1-preview
及50次o1-mini
对话。而o1
API调用的数量限制为每分钟20次调用(20 RPM),这个数量是不足以大规模商用的。
其次是token的消耗方面。o1
模型的训练方式决定了它在每一次回答时消耗的token数是巨大的,因为模型首先需要进入内部思维链进行“思考”,这一步就开始消耗token,然后输出答案,这一步继续消耗token。所以随便一个问题,很有可能就消耗上万个输出tokens,意味着几美元的问答成本。
目前o1-preview
模型API定价为:15美元每百万输入tokens和60美元每百万输出tokens;o1-mini
模型API定价为:3美元每百万输入tokens和12美元每百万输出tokens。
OpenAI o1
模型虽强,但也要理性看待,它并没有那么“神”乎其神。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-22
花60元,DIY了一个AI机器人,能聊天,会认人……
2024-12-21
基于AI智能助理的软件开源组件安全检查
2024-12-21
Llama2024年度要点总结
2024-12-21
重磅! Github Copilot 免费了
2024-12-20
万字长文帮你搞定AI Agent选型
2024-12-20
微软开源的 Markitdown 可将任意文件转换为 Markdown 格式,PDF 解析咋样?
2024-12-20
Claude的MCP(模型上下文协议)简介
2024-12-20
历时2年,华人团队力作,震撼开源生成式物理引擎Genesis,可模拟世界万物
2024-05-06
2024-07-25
2024-08-13
2024-06-12
2024-07-11
2024-06-16
2024-07-20
2024-09-20
2024-06-15
2024-07-25
2024-12-20
2024-12-19
2024-11-22
2024-11-19
2024-11-13
2024-11-13
2024-10-07
2024-09-22