AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


中国研究者破解OpenAI 01和03的“思考”秘密,AGI时代即将到来?
发布日期:2025-01-22 07:33:22 浏览次数: 1535 来源:老肖说两句
推荐语

中国研究者破解 OpenAI 01 和 03 思考秘密。

核心内容:
1. OpenAI 和 Google 模型的出色表现及原因
2. 中国研究者的破解成果及关键要素
3. 01 模型的思考能力及带来的范式转变

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

 

从“思考模型”到AGI,OpenAI和Google的“测试时间计算”如何让AI达到博士级水平?


近年来,人工智能领域迎来了前所未有的突破,尤其是OpenAI的01和03模型,以及Google的Gemini模型,它们不仅在数学、科学推理等复杂任务上表现出色,甚至达到了博士级别的水平。这些模型的成功,很大程度上归功于“测试时间计算”(Test-Time Compute),也就是我们常说的“思考”能力。

然而,OpenAI和Google一直是这一领域的佼佼者,直到最近,中国的研究者们终于破解了这一“思考”模型的秘密。复旦大学和上海人工智能实验室的研究者们发布了一篇论文,详细解释了如何复现OpenAI 01模型的“思考”能力,并提出了四个关键要素:策略初始化(Policy Initialization)、奖励设计(Reward Design)、搜索(Search)和学习(Learning)

今天,我们将深入探讨这篇论文,揭示这些“思考模型”背后的秘密,以及它们如何推动人工智能向通用人工智能(AGI)迈进。


01和03模型的“思考”能力:测试时间计算的革命

OpenAI的01模型代表了人工智能领域的一个重要里程碑。它能够生成非常长的推理过程,执行类似人类的推理行为,如澄清和分解问题、反思和纠正错误、在遇到失败模式时探索新的解决方案。01模型的推理能力远超之前的语言模型,达到了博士级别的水平。

那么,什么是“测试时间计算”? 简单来说,就是当用户提交一个提示(prompt)时,模型不会立即给出答案,而是花费更多的时间和计算资源进行“思考”。这种“思考”过程使得模型能够在复杂的任务中表现出色,尤其是在数学、科学推理和逻辑问题上。

OpenAI的博客和系统卡片显示,01模型的性能随着强化学习和推理计算的增加而持续提升。这意味着,01模型可能推动人工智能的两个范式转变:从自监督学习转向强化学习,以及从仅扩展训练计算到同时扩展训练和推理计算。

为什么这如此重要? 因为传统的AI模型主要依赖于训练数据的扩展,而随着公开数据的枯竭,训练数据的获取变得越来越困难。然而,测试时间计算的扩展几乎是无限制的,因为它只需要更多的计算资源。这意味着,未来的AI模型可以通过“思考”来不断提升性能,而不需要依赖更多的训练数据。


复现01模型的四大关键要素

根据复旦大学和上海人工智能实验室的研究,复现01模型的“思考”能力需要四个关键要素:

1. 策略初始化(Policy Initialization)

策略初始化可以理解为模型在接收到提示之前的所有准备工作。它包括预训练(Pre-training)指令微调(Instruction Fine-tuning)人类推理行为(Human-like Reasoning Behaviors)

  • • 预训练:通过大规模的网络数据训练模型,使其具备基本的语言理解和生成能力。
  • • 指令微调:通过问答对数据对模型进行微调,使其能够根据指令生成符合人类期望的响应。
  • • 人类推理行为:模型需要具备类似人类的推理能力,如问题分析、任务分解、自我评估和自我纠正等。

2. 奖励设计(Reward Design)

奖励设计是告诉模型它的行为是否正确的方式。在强化学习中,奖励信号是模型学习的核心驱动力。对于语言模型来说,奖励设计尤为重要,因为语言任务的奖励信号往往不像游戏那样明确。

  • • 结果奖励(Outcome Reward):根据最终结果是否正确来给予奖励。
  • • 过程奖励(Process Reward):根据每个步骤的正确性来给予奖励。过程奖励能够更细致地指导模型的学习,尤其是在复杂的推理任务中。

3. 搜索(Search)

搜索是模型在生成答案时进行“思考”的核心机制。它既可以在训练时进行,也可以在推理时进行。01模型的“思考”能力主要体现在推理时的搜索过程。

  • • 训练时搜索:通过生成多个候选答案,选择最优的答案作为训练数据。
  • • 推理时搜索:在生成答案时,模型会生成多个候选答案,并通过自我评估或外部反馈选择最优的答案。

4. 学习(Learning)

学习主要是指强化学习,即模型通过与环境的交互来学习,而不是依赖人类的反馈。强化学习的优势在于,它可以通过试错来发现人类可能从未想到的策略,从而实现“超人”级别的表现。


从“思考模型”到AGI:未来的方向

随着01和03模型的成功,人工智能正在向通用人工智能(AGI)迈进。根据OpenAI的五阶段路线图,01模型已经达到了第二阶段的“推理者”(Reasoner),而未来的目标是第三阶段的“代理”(Agent),即能够执行实际任务的AI系统。

未来的研究方向包括:

  1. 1. 如何将01模型适应更广泛的领域:当前的模型在数学和科学推理上表现出色,但在其他领域的表现还有待提升。
  2. 2. 如何引入多模态能力:未来的AI模型不仅需要处理文本,还需要处理图像、视频等多模态数据。
  3. 3. 如何在世界模型中进行学习和搜索:这将使AI能够在现实世界中执行任务,而不仅仅是处理虚拟环境中的问题。

结语:AGI时代的曙光

这篇论文为我们揭示了OpenAI 01和03模型的“思考”秘密,也为我们展示了未来AI发展的方向。随着测试时间计算的扩展和强化学习的应用,AI模型将能够在更复杂的任务中表现出色,甚至超越人类的能力。



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询