AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


对o1模型的技术分析(重制版)

发布日期:2025-03-05 21:45:44 浏览次数: 1571 来源:孔某人的低维认知
推荐语

深入解析o1模型的技术分析,揭示其背后的技术逻辑和误区。

核心内容:
1. 反思历史错误原因,分析技术分析偏差
2. o1模型的最新猜测与技术方案
3. o1模型推理过程与回答格式template

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

现在大家对o1都已经不那么关注了,(虽然说即使到现在其实很多人仍然不理解o1的能力)。

在翻老文章的时候,发现之前对于o1的技术分析中猜错的部分较多,结合目前的信息应该重写一版分析了。所以标题叫做重制版,算是一个长期留存版本吧。

0、回顾历史错误原因

先反思一下为什么当时分析的方向错了,应该是受到以下因素的影响:

  • 拾象出了一个LLM RL范式的报告,虽然说现在来看RL这部分是对的,但其他并不对,现在看起来并不需要MCTS和PRM。

  • Gemini的AlphaProof工作正好符合MCTS的示例,并且比较符合我们对数学推理数据的想象。

  • o1的分段思考摘要特性。

本文替换掉以下历史文章:

o1模型的技术分析(1)——OpenAI亲自下场做的Agent推理模块的技术原型
o1模型的技术分析(2):内部实现的更多信息
展望o1路线的可改进方向
对o1 pro思考过程的技术分析(1)
对o1 pro思考过程的技术分析(2)

1、对o1模型方案的最新猜测

本文的猜测基于以下前提假设:最容易实现且能够实现该效果的方式可能性最大。

o1模型主要是在post-training阶段进行了RL训练,只针对了数学等部分场景设计了reward进行训练。如果不好想象的话,可以参考DeepSeek R1和R1-Zero的训练过程,虽然未必用了GRPO,但估计大概也是种类似的RL方案。在推理阶段也是直接先think再回答,只是单路推理。推理方面可以直接参考R1模型的推理过程。

虽然只是在部分场景进行了直接针对reward的RL训练,但能力可以泛化到其他领域。在DeepSeek R1上也能看到类似的效果。

在回答格式template上,基本类似于R1的think、answer两段式。

不过回答格式template中大概率还预埋了一个粗粒度step结束的特殊token,或者说分节标记token。这个step结束token目前的主要作用是帮助在流式思考过程中方便每个step结束时就触发总结思考过程,以实现流式的思考step摘要生成。在没有好的RPM的情况下,这个step结束token似乎没有什么别的用处。

流式思考过程的摘要是一个旁路过程,由step结束token触发,把思考过程摘要并翻译到用户账号语言。这个模型似乎不大,经常有一些bug。

除此之外应该没有别的旁路过程了。并不需要独立的监督或者对齐过程,推理模型本身在对齐和对抗reward hacking上就是比之前模型更好的。

并不需要先通过RL方式合成数据然后再post training的方式,Online RL方案就可以在训练过程中合成数据并直接进行训练。不过其中得到的高reward trace是可以存下来和其他任务的数据合在一起再训练的。当然并不排除在数据中掺有类似AlphaProof这样方式合成的数据,但这不是必须项。

对于reasoning_effort参数的实现方式,还比较模糊。一种简单的方式是降低end-think token的概率,迫使模型做更长的思考。也可能是在RL训练时,针对不同粒度的长度惩罚,在回答前增加不同reasoning_effort的标签。这样在推理时直接插入对应的reasoning_effort标签来实现不同长度偏好的推理。

2、对o1 pro mode的猜测

从token生成速度和时间测量来看,o1模型的生成时间与总生成token量成线性。但对于o1 pro mode来说,并没有这样的线性关系。

再考虑到o1 pro mode不能流式给出结果,它应该是一种多路采样再选择答案的方式。候选只有Self-Consistency或者Best-of-N两种方式,具体不知道使用了哪种。

3、关于o3

目前OpenAI没有独立的o3模型发布计划,o3-mini已经开放,成本与o1-mini相同,预计也是使用类似o1的方式。

我们对于o3的成本了解只有之前ARC-AGI测试给的那张图,它成本的增加很快,感觉不像是单路推理,但具体细节很难推测了。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询