我要投稿

o3技术分析：从DeepMind的Alpha系列看OpenAI的o系列

发布日期：2025-02-15 04:21:57 浏览次数： 2129 作者：ADaM应用数据挖掘和机器学习

前天预测 OpenAI最后一天会发布GPT-4.5/5，结果被打脸了。12天的发布会一头一尾，o1和o3两代推理模型，说明了OpenAI对o系列的重视程度。但我相信，GPT系列还在训练中，只是目前在OpenAI内部的重要性不如o系列了。

1. o3可能的技术实现

我们知道是IIya领导了GPT系列的研发。其实他也是AlphaGo论文的合作者、而且是DeepMind团队之外唯一的合作者。而在o1发布的博客中，将IIya列为最核心的贡献者之一，即便此时他已经从OpenAI离职。

相信正是AlphaGo的成功经验，让IIya在早期就将强化学习和无监督学习定为OpenAI的主要技术路线。IIya对强化学习的推崇，2018年在MIT的报告中就表达地非常清晰。

无监督学习对应了GPT系列，现在看，强化学习对应的就是o系列。有理由相信IIya把AlphaGo的思想应用到o系列的研发中。

让我们具体看看Alpha系列和o系列的关联。

AlphaGo分为训练阶段基于人类已有数据的模仿学习、以及对策略函数增强和估值函数训练的强化学习，测试阶段使用了蒙特卡洛树搜索。

训练阶段的模仿学习和强化学习，大致对应了今天大模型的预训练和后训练。而MTCS则对应了大模型的推断。

基于这种对应，可以从AlphaGo之后的发展来理解和预测大模型的发展。

首先是AlphaGo到AlphaGo Zero。一个大家熟知的变化是去掉了第一阶段的模仿学习，直接从第二阶段开始。这大致对应了今天重视后训练的趋势。只是我们还没能（也许有一天会）完全不需要互联网数据的冷启动。

其实AlphaGo Zero还有另一个变化，是将MTCS从推断移到了训练阶段。基本想法是：在训练阶段通过树搜索将模型能力提升到足够高后，推断时就不需要搜索了。台下多努力，台上就轻松了。

这其实对应了我们使用大模型推理能力的变化。o1之前，所谓的Agent其实是人工设计CoT工作流，或者通过ToT之类的机制在推断时“强迫”模型推理。

普遍认为，o1的多步推断是模型内部行为，而不是通过外部prompting实现的。即，o1的推理是模型“自愿”的。因为ToT、MCTS在训练时已经做过了，模型已具备了这种形式的推理能力。

那能不能训练、推断都做树搜索呢？我们知道AlphaGo Zero已经打败天下无敌手了，“不为也，非不能也”，没必要。

但推理显然还没有达到上限。所以，o3最直接的提升性能的做法是：在标准o1的基础上，在推断阶段也加入搜索。Arc Prize图里的o3高配和低配版对应的就是推断时搜索复杂度的高低。

除了推断阶段加入搜索带来的确定性提升，o3在训练阶段提升的可能来源是：(1) 在o1的基础上通过SelfPlay持续增强，这对应了从GPT系列增加数据量和模型规模的路线，只不过o系列的数据来自于SelfPlay+RL合成。（2）不排除o3同时站在了GPT系列的肩膀上：GPT-4o+o1ào3；在强化微调的实验中我们发现：GPT-4o的通用知识对于策略行为和奖励函数的泛化是有积极意义的。

2. 挑战一：环境状态预测 --> 世界模型编码

从演示看，o3仍然聚焦的是数学和编程问题。未来需要向更广泛的任务上泛化。

让我们回到DeepMind Alpha系列的发展，看看能否找到线索。

AlphaGo Zero之后的AlphaZero去掉了”Go”，可以用于多个棋类游戏。MuZero则从Alpha直接到了Mu，能同时玩57款Atari游戏。

MuZero解决的电子游戏任务包含复杂的游戏场景。Alpha系列使用的树搜索方法在规划路径时，涉及对环境状态的预测：即基于当前状态和潜在行为、输出下一个状态。这在RL中通常需要一个世界模型来获得状态转移概率。

棋类游戏的状态转移概率是游戏规则显性设计好的：选择某个落子后，棋盘会变成什么状态。而电子游戏场景无法通过规则来完备描述。

如果将o系列应用于类似具有复杂环境的任务，比如computer use，会遇到类似的问题：路径规划需要状态预测 --> 通过与真实环境交互更新状态的成本太高 --> 需要编码世界模型，基于模型进行状态预测。

然而，为环境学习一个完美的世界模型太难了。最近的交互式生成内容工作，无论是Genie-2，还是Genesis，建模的都是相对连续的状态空间。与手机操作等环境的差异很大。

好在没有必要，因为真正在意的只是那些对于作为决策有影响的环境状态。MuZero给的解法是同时学习世界模型和策略模型。而且为了提高效率，状态可以在特征空间表示，不需要显式反映到电子游戏环境上。

3. 挑战二：奖励函数适配-->强化微调？

强化微调是解决领域任务泛化的一个思路。但无法避开的问题是奖励函数和行为空间的适配。

先看一下AlphaZero和MuZero是如何解决的。

首先是策略函数的行为空间。棋类和电子游戏行为空间离散且有限，相对确定的行为空间使得模型在不同游戏之间能够找到一些通用的策略模式。

以Atari游戏为例，“向左”“向右”“跳跃”或“发射子弹”等基础操作有一定的共通性，只需在具体的任务中稍加微调、学习与适应。

关于奖励函数。游戏的结果奖励就是输赢，非常明确。

对于过程奖励。行为空间相对确定的任务，过程奖励也有一定的统一性。比如棋类游戏中，吃掉对方棋子、占据关键位置等通常被视为积极的过程奖励。Atari游戏中，收集道具、躲避危险等行为在不同的同类型游戏中也往往是值得奖励的。

然而，对于LLM来说，行为是生成一系列token，行为空间是高维且连续的。确定不同任务间行为的粒度本身就是个挑战。当然可以选择固定每次行为的token数量，但这显然有局限性，上限不高。

奖励函数方面，数学、编程和有确定答案的判别式问题可以有确定的结果奖励。但如文本生成、翻译、问答等任务，评估结果好坏本就是个主观问题。

在不同任务中，过程奖励的差别则更大。在文本生成中，生成符合语法规则、逻辑连贯且富有创意的句子是值得奖励的；问答则更看中准确检索和提供正确答案。而同样是文本生成，不同领域也要生成不同风格和格式的文本。

从Alpha系列中似乎很难找到线索。

乐观地看，Alpha系列本就是面向特定任务设计的。而LLM之所以能在系统一形式的问题上相对通用，得益于语言作为连接多种任务的通用接口。

所以，当o系列模型能力足够强大时，是否能够自行判断应该用什么样的行为空间，并自己调整所需的过程与结果奖励函数？

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-05-01

Agent2Agent 协议详解：Google 引领打造通用 AI 代理通信标准

2025-05-01

万字一手实测Prover-V2-671B数学证明模型

2025-04-30

o3 深度解读：OpenAI 终于发力 tool use，agent 产品危险了吗？

2025-04-30

深度解析OpenAI和Google智能体白皮书及背后两种路线｜大模型研究

2025-04-30

MCP入门指南：大模型时代的USB接口

2025-04-30

通俗易懂的梳理MCP的工作流程（以高德地图MCP为例）

2025-04-30

一文说明 Function Calling、MCP、A2A 的区别！

2025-04-30

MCP很好，但它不是万灵药｜一文读懂 MCP

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

o3 深度解读：OpenAI 终于发力 tool use，agent 产品危险了吗？

2025-04-30

打起来了！MCP VS A2A，谁才是Agent的未来事实标准？

2025-04-29

Google 的 A2A 与 MCP 该如何选择？还是两种都用？

2025-04-29

精华好文！用LLM评估LLM，真的靠谱吗？技术上如何实现？

2025-04-29

大模型是否有必要本地化部署？

2025-04-28

给 AI 小白的说明书：什么是 Manus？AI Agent为什么重要？

2025-04-28

MCP爆火背后：AI Agent的生产力时代来了吗？

2025-04-28

从MCP到超级Agent：这场AI生产力革命将淘汰谁？

2025-04-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB