我要投稿

中国研究者破解OpenAI 01和03的“思考”秘密，AGI时代即将到来？

发布日期：2025-01-22 07:33:22 浏览次数： 1790 作者：老肖说两句

从“思考模型”到AGI，OpenAI和Google的“测试时间计算”如何让AI达到博士级水平？

近年来，人工智能领域迎来了前所未有的突破，尤其是OpenAI的01和03模型，以及Google的Gemini模型，它们不仅在数学、科学推理等复杂任务上表现出色，甚至达到了博士级别的水平。这些模型的成功，很大程度上归功于“测试时间计算”（Test-Time Compute），也就是我们常说的“思考”能力。

然而，OpenAI和Google一直是这一领域的佼佼者，直到最近，中国的研究者们终于破解了这一“思考”模型的秘密。复旦大学和上海人工智能实验室的研究者们发布了一篇论文，详细解释了如何复现OpenAI 01模型的“思考”能力，并提出了四个关键要素：策略初始化（Policy Initialization）、奖励设计（Reward Design）、搜索（Search）和学习（Learning）。

今天，我们将深入探讨这篇论文，揭示这些“思考模型”背后的秘密，以及它们如何推动人工智能向通用人工智能（AGI）迈进。

01和03模型的“思考”能力：测试时间计算的革命

OpenAI的01模型代表了人工智能领域的一个重要里程碑。它能够生成非常长的推理过程，执行类似人类的推理行为，如澄清和分解问题、反思和纠正错误、在遇到失败模式时探索新的解决方案。01模型的推理能力远超之前的语言模型，达到了博士级别的水平。

那么，什么是“测试时间计算”？ 简单来说，就是当用户提交一个提示（prompt）时，模型不会立即给出答案，而是花费更多的时间和计算资源进行“思考”。这种“思考”过程使得模型能够在复杂的任务中表现出色，尤其是在数学、科学推理和逻辑问题上。

OpenAI的博客和系统卡片显示，01模型的性能随着强化学习和推理计算的增加而持续提升。这意味着，01模型可能推动人工智能的两个范式转变：从自监督学习转向强化学习，以及从仅扩展训练计算到同时扩展训练和推理计算。

为什么这如此重要？ 因为传统的AI模型主要依赖于训练数据的扩展，而随着公开数据的枯竭，训练数据的获取变得越来越困难。然而，测试时间计算的扩展几乎是无限制的，因为它只需要更多的计算资源。这意味着，未来的AI模型可以通过“思考”来不断提升性能，而不需要依赖更多的训练数据。

复现01模型的四大关键要素

根据复旦大学和上海人工智能实验室的研究，复现01模型的“思考”能力需要四个关键要素：

1. 策略初始化（Policy Initialization）

策略初始化可以理解为模型在接收到提示之前的所有准备工作。它包括预训练（Pre-training）、指令微调（Instruction Fine-tuning）和人类推理行为（Human-like Reasoning Behaviors）。

• 预训练：通过大规模的网络数据训练模型，使其具备基本的语言理解和生成能力。
• 指令微调：通过问答对数据对模型进行微调，使其能够根据指令生成符合人类期望的响应。
• 人类推理行为：模型需要具备类似人类的推理能力，如问题分析、任务分解、自我评估和自我纠正等。

2. 奖励设计（Reward Design）

奖励设计是告诉模型它的行为是否正确的方式。在强化学习中，奖励信号是模型学习的核心驱动力。对于语言模型来说，奖励设计尤为重要，因为语言任务的奖励信号往往不像游戏那样明确。

• 结果奖励（Outcome Reward）：根据最终结果是否正确来给予奖励。
• 过程奖励（Process Reward）：根据每个步骤的正确性来给予奖励。过程奖励能够更细致地指导模型的学习，尤其是在复杂的推理任务中。

3. 搜索（Search）

搜索是模型在生成答案时进行“思考”的核心机制。它既可以在训练时进行，也可以在推理时进行。01模型的“思考”能力主要体现在推理时的搜索过程。

• 训练时搜索：通过生成多个候选答案，选择最优的答案作为训练数据。
• 推理时搜索：在生成答案时，模型会生成多个候选答案，并通过自我评估或外部反馈选择最优的答案。

4. 学习（Learning）

学习主要是指强化学习，即模型通过与环境的交互来学习，而不是依赖人类的反馈。强化学习的优势在于，它可以通过试错来发现人类可能从未想到的策略，从而实现“超人”级别的表现。

从“思考模型”到AGI：未来的方向

随着01和03模型的成功，人工智能正在向通用人工智能（AGI）迈进。根据OpenAI的五阶段路线图，01模型已经达到了第二阶段的“推理者”（Reasoner），而未来的目标是第三阶段的“代理”（Agent），即能够执行实际任务的AI系统。

未来的研究方向包括：

1. 如何将01模型适应更广泛的领域：当前的模型在数学和科学推理上表现出色，但在其他领域的表现还有待提升。
2. 如何引入多模态能力：未来的AI模型不仅需要处理文本，还需要处理图像、视频等多模态数据。
3. 如何在世界模型中进行学习和搜索：这将使AI能够在现实世界中执行任务，而不仅仅是处理虚拟环境中的问题。

结语：AGI时代的曙光

这篇论文为我们揭示了OpenAI 01和03模型的“思考”秘密，也为我们展示了未来AI发展的方向。随着测试时间计算的扩展和强化学习的应用，AI模型将能够在更复杂的任务中表现出色，甚至超越人类的能力。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-26

从Function Call到MCP：大模型如何调用外部工具

2025-04-26

增量代码自动Review工具：洞窝在AI上的探索和实践

2025-04-25

OpenAI 白送 200 美元的深度研究功能？实测后发现这个「阉割版」不如不用

2025-04-25

为什么一定要做Agent智能体？

2025-04-25

哇！首个MCPBench来了，MCP竟然不比Function Calls更有优势？ | 最新

2025-04-25

医疗大模型案例分析（一）：Google Med-PaLM

2025-04-25

vLLM+Qwen-32B+Open Web UI构建本地私有大模型

2025-04-25

AI产品经理思考MCP（3）：MCP的未来可能

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

为什么一定要做Agent智能体？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

2025-04-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部