微信扫码
与创始人交个朋友
我要投稿
中国研究者破解 OpenAI 01 和 03 思考秘密。 核心内容: 1. OpenAI 和 Google 模型的出色表现及原因 2. 中国研究者的破解成果及关键要素 3. 01 模型的思考能力及带来的范式转变
近年来,人工智能领域迎来了前所未有的突破,尤其是OpenAI的01和03模型,以及Google的Gemini模型,它们不仅在数学、科学推理等复杂任务上表现出色,甚至达到了博士级别的水平。这些模型的成功,很大程度上归功于“测试时间计算”(Test-Time Compute),也就是我们常说的“思考”能力。
然而,OpenAI和Google一直是这一领域的佼佼者,直到最近,中国的研究者们终于破解了这一“思考”模型的秘密。复旦大学和上海人工智能实验室的研究者们发布了一篇论文,详细解释了如何复现OpenAI 01模型的“思考”能力,并提出了四个关键要素:策略初始化(Policy Initialization)、奖励设计(Reward Design)、搜索(Search)和学习(Learning)。
今天,我们将深入探讨这篇论文,揭示这些“思考模型”背后的秘密,以及它们如何推动人工智能向通用人工智能(AGI)迈进。
OpenAI的01模型代表了人工智能领域的一个重要里程碑。它能够生成非常长的推理过程,执行类似人类的推理行为,如澄清和分解问题、反思和纠正错误、在遇到失败模式时探索新的解决方案。01模型的推理能力远超之前的语言模型,达到了博士级别的水平。
那么,什么是“测试时间计算”? 简单来说,就是当用户提交一个提示(prompt)时,模型不会立即给出答案,而是花费更多的时间和计算资源进行“思考”。这种“思考”过程使得模型能够在复杂的任务中表现出色,尤其是在数学、科学推理和逻辑问题上。
OpenAI的博客和系统卡片显示,01模型的性能随着强化学习和推理计算的增加而持续提升。这意味着,01模型可能推动人工智能的两个范式转变:从自监督学习转向强化学习,以及从仅扩展训练计算到同时扩展训练和推理计算。
为什么这如此重要? 因为传统的AI模型主要依赖于训练数据的扩展,而随着公开数据的枯竭,训练数据的获取变得越来越困难。然而,测试时间计算的扩展几乎是无限制的,因为它只需要更多的计算资源。这意味着,未来的AI模型可以通过“思考”来不断提升性能,而不需要依赖更多的训练数据。
根据复旦大学和上海人工智能实验室的研究,复现01模型的“思考”能力需要四个关键要素:
策略初始化可以理解为模型在接收到提示之前的所有准备工作。它包括预训练(Pre-training)、指令微调(Instruction Fine-tuning)和人类推理行为(Human-like Reasoning Behaviors)。
奖励设计是告诉模型它的行为是否正确的方式。在强化学习中,奖励信号是模型学习的核心驱动力。对于语言模型来说,奖励设计尤为重要,因为语言任务的奖励信号往往不像游戏那样明确。
搜索是模型在生成答案时进行“思考”的核心机制。它既可以在训练时进行,也可以在推理时进行。01模型的“思考”能力主要体现在推理时的搜索过程。
学习主要是指强化学习,即模型通过与环境的交互来学习,而不是依赖人类的反馈。强化学习的优势在于,它可以通过试错来发现人类可能从未想到的策略,从而实现“超人”级别的表现。
随着01和03模型的成功,人工智能正在向通用人工智能(AGI)迈进。根据OpenAI的五阶段路线图,01模型已经达到了第二阶段的“推理者”(Reasoner),而未来的目标是第三阶段的“代理”(Agent),即能够执行实际任务的AI系统。
未来的研究方向包括:
这篇论文为我们揭示了OpenAI 01和03模型的“思考”秘密,也为我们展示了未来AI发展的方向。随着测试时间计算的扩展和强化学习的应用,AI模型将能够在更复杂的任务中表现出色,甚至超越人类的能力。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-22
LalaEval:面向领域大模型的端到端人工评测框架
2025-01-22
OpenAI重磅:全新自主Agent意外曝光!
2025-01-22
突发!OpenAI宣布“星际之门计划”:5000 亿美元构建未来 AI 基础设施
2025-01-22
Cohere Design: 顶尖 AI 团队的绝佳审美
2025-01-22
Google DeepMind 也要开始研究世界模型
2025-01-22
DeepSeek-R1:开启大语言模型推理能力强化学习新纪元
2025-01-22
腾讯搜索广告:基于混元大模型的生成式召回探索与应用
2025-01-22
豆包实时语音大模型上线即开放!情商智商双高
2024-08-13
2024-05-28
2024-08-21
2024-04-26
2024-06-13
2024-09-23
2024-08-04
2024-07-09
2024-07-01
2024-07-18