AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


o3技术分析:从DeepMind的Alpha系列看OpenAI的o系列

发布日期:2025-02-15 04:21:57 浏览次数: 1959 来源:ADaM应用数据挖掘和机器学习
推荐语

深入剖析OpenAI o系列技术发展,揭秘与DeepMind Alpha系列的关联。

核心内容:
1. OpenAI o系列与GPT系列的对比及其重要性
2. AlphaGo成功经验对o系列研发的影响
3. Alpha系列技术发展对大模型未来的启示

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

前天预测 OpenAI最后一天会发布GPT-4.5/5,结果被打脸了。12天的发布会一头一尾,o1o3两代推理模型,说明了OpenAIo系列的重视程度。但我相信,GPT系列还在训练中,只是目前在OpenAI内部的重要性不如o系列了。

1. o3可能的技术实现


我们知道是IIya领导了GPT系列的研发。其实他也是AlphaGo论文的合作者、而且是DeepMind团队之外唯一的合作者。而在o1发布的博客中,将IIya列为最核心的贡献者之一,即便此时他已经从OpenAI离职。


相信正是AlphaGo的成功经验,让IIya在早期就将强化学习和无监督学习定为OpenAI的主要技术路线。IIya对强化学习的推崇,2018MIT的报告中就表达地非常清晰。

无监督学习对应了GPT系列,现在看,强化学习对应的就是o系列。有理由相信IIyaAlphaGo的思想应用到o系列的研发中。

让我们具体看看Alpha系列和o系列的关联。


AlphaGo分为训练阶段基于人类已有数据的模仿学习、以及对策略函数增强和估值函数训练的强化学习,测试阶段使用了蒙特卡洛树搜索。


训练阶段的模仿学习和强化学习,大致对应了今天大模型的预训练和后训练。而MTCS则对应了大模型的推断。


基于这种对应,可以从AlphaGo之后的发展来理解和预测大模型的发展。


首先是AlphaGoAlphaGo Zero。一个大家熟知的变化是去掉了第一阶段的模仿学习,直接从第二阶段开始。这大致对应了今天重视后训练的趋势。只是我们还没能(也许有一天会)完全不需要互联网数据的冷启动。


其实AlphaGo Zero还有另一个变化,是将MTCS从推断移到了训练阶段。基本想法是:在训练阶段通过树搜索将模型能力提升到足够高后,推断时就不需要搜索了。台下多努力,台上就轻松了。


这其实对应了我们使用大模型推理能力的变化。o1之前,所谓的Agent其实是人工设计CoT工作流,或者通过ToT之类的机制在推断时“强迫”模型推理

普遍认为,o1的多步推断是模型内部行为,而不是通过外部prompting实现的。即,o1的推理是模型“自愿”的。因为ToTMCTS在训练时已经做过了,模型已具备了这种形式的推理能力。


那能不能训练、推断都做树搜索呢?我们知道AlphaGo Zero已经打败天下无敌手了,“不为也,非不能也”,没必要。


但推理显然还没有达到上限。所以,o3最直接的提升性能的做法是:在标准o1的基础上,在推断阶段也加入搜索。Arc Prize图里的o3高配和低配版对应的就是推断时搜索复杂度的高低。


除了推断阶段加入搜索带来的确定性提升,o3训练阶段提升的可能来源是:(1) o1的基础上通过SelfPlay持续增强,这对应了从GPT系列增加数据量和模型规模的路线,只不过o系列的数据来自于SelfPlay+RL合成。2)不排除o3同时站在了GPT系列的肩膀上:GPT-4o+o1ào3;在强化微调的实验中我们发现:GPT-4o的通用知识对于策略行为和奖励函数的泛化是有积极意义的。


2. 挑战一:环境状态预测 --> 世界模型编码

从演示看,o3仍然聚焦的是数学和编程问题。未来需要向更广泛的任务上泛化

让我们回到DeepMind Alpha系列的发展,看看能否找到线索。


AlphaGo Zero之后的AlphaZero去掉了”Go”,可以用于多个棋类游戏。MuZero则从Alpha直接到了Mu,能同时玩57Atari游戏。


MuZero解决的电子游戏任务包含复杂的游戏场景。Alpha系列使用的树搜索方法在规划路径时,涉及对环境状态的预测:即基于当前状态和潜在行为、输出下一个状态。这在RL中通常需要一个世界模型来获得状态转移概率


棋类游戏的状态转移概率是游戏规则显性设计好的:选择某个落子后,棋盘会变成什么状态。而电子游戏场景无法通过规则来完备描述


如果将o系列应用于类似具有复杂环境的任务,比如computer use,会遇到类似的问题:路径规划需要状态预测 --> 通过与真实环境交互更新状态的成本太高 --> 需要编码世界模型,基于模型进行状态预测


然而,为环境学习一个完美的世界模型太难了。最近的交互式生成内容工作,无论是Genie-2,还是Genesis,建模的都是相对连续的状态空间。与手机操作等环境的差异很大。


好在没有必要,因为真正在意的只是那些对于作为决策有影响的环境状态MuZero给的解法是同时学习世界模型和策略模型。而且为了提高效率,状态可以在特征空间表示,不需要显式反映到电子游戏环境上。



3. 挑战二:奖励函数适配-->强化微调?


强化微调是解决领域任务泛化的一个思路。但无法避开的问题是奖励函数和行为空间的适配。


先看一下AlphaZeroMuZero是如何解决的。

首先是策略函数的行为空间。棋类和电子游戏行为空间离散且有限,相对确定的行为空间使得模型在不同游戏之间能够找到一些通用的策略模式。


Atari游戏为例,向左”“向右”“跳跃发射子弹等基础操作有一定的共通性,只需在具体的任务中稍加微调、学习与适应。


关于奖励函数。游戏的结果奖励就是输赢,非常明确。


对于过程奖励。行为空间相对确定的任务,过程奖励也有一定的统一性。比如棋类游戏中,吃掉对方棋子、占据关键位置等通常被视为积极的过程奖励。Atari游戏中,收集道具、躲避危险等行为在不同的同类型游戏中也往往是值得奖励的。


然而,对于LLM来说,行为是生成一系列token,行为空间是高维且连续的。确定不同任务间行为的粒度本身就是个挑战。当然可以选择固定每次行为的token数量,但这显然有局限性,上限不高。


奖励函数方面,数学、编程和有确定答案的判别式问题可以有确定的结果奖励。但如文本生成、翻译、问答等任务,评估结果好坏本就是个主观问题。


在不同任务中,过程奖励的差别则更大。在文本生成中,生成符合语法规则、逻辑连贯且富有创意的句子是值得奖励的;问答则更看中准确检索和提供正确答案。而同样是文本生成,不同领域也要生成不同风格和格式的文本。


Alpha系列中似乎很难找到线索。


乐观地看,Alpha系列本就是面向特定任务设计的。而LLM之所以能在系统一形式的问题上相对通用,得益于语言作为连接多种任务的通用接口


所以,当o系列模型能力足够强大时,是否能够自行判断应该用什么样的行为空间,并自己调整所需的过程与结果奖励函数?

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

和创始人交个朋友

回到顶部

 

加载中...

扫码咨询