我要投稿

对o1模型的技术分析（重制版）

发布日期：2025-03-05 21:45:44 浏览次数： 1632 作者：孔某人的低维认知

现在大家对o1都已经不那么关注了，（虽然说即使到现在其实很多人仍然不理解o1的能力）。

在翻老文章的时候，发现之前对于o1的技术分析中猜错的部分较多，结合目前的信息应该重写一版分析了。所以标题叫做重制版，算是一个长期留存版本吧。

0、回顾历史错误原因

先反思一下为什么当时分析的方向错了，应该是受到以下因素的影响：

拾象出了一个LLM RL范式的报告，虽然说现在来看RL这部分是对的，但其他并不对，现在看起来并不需要MCTS和PRM。
Gemini的AlphaProof工作正好符合MCTS的示例，并且比较符合我们对数学推理数据的想象。
o1的分段思考摘要特性。

本文替换掉以下历史文章：

o1模型的技术分析(1)——OpenAI亲自下场做的Agent推理模块的技术原型

o1模型的技术分析(2)：内部实现的更多信息

展望o1路线的可改进方向

对o1 pro思考过程的技术分析（1）

对o1 pro思考过程的技术分析（2）

1、对o1模型方案的最新猜测

本文的猜测基于以下前提假设：最容易实现且能够实现该效果的方式可能性最大。

o1模型主要是在post-training阶段进行了RL训练，只针对了数学等部分场景设计了reward进行训练。如果不好想象的话，可以参考DeepSeek R1和R1-Zero的训练过程，虽然未必用了GRPO，但估计大概也是种类似的RL方案。在推理阶段也是直接先think再回答，只是单路推理。推理方面可以直接参考R1模型的推理过程。

虽然只是在部分场景进行了直接针对reward的RL训练，但能力可以泛化到其他领域。在DeepSeek R1上也能看到类似的效果。

在回答格式template上，基本类似于R1的think、answer两段式。

不过回答格式template中大概率还预埋了一个粗粒度step结束的特殊token，或者说分节标记token。这个step结束token目前的主要作用是帮助在流式思考过程中方便每个step结束时就触发总结思考过程，以实现流式的思考step摘要生成。在没有好的RPM的情况下，这个step结束token似乎没有什么别的用处。

流式思考过程的摘要是一个旁路过程，由step结束token触发，把思考过程摘要并翻译到用户账号语言。这个模型似乎不大，经常有一些bug。

除此之外应该没有别的旁路过程了。并不需要独立的监督或者对齐过程，推理模型本身在对齐和对抗reward hacking上就是比之前模型更好的。

并不需要先通过RL方式合成数据然后再post training的方式，Online RL方案就可以在训练过程中合成数据并直接进行训练。不过其中得到的高reward trace是可以存下来和其他任务的数据合在一起再训练的。当然并不排除在数据中掺有类似AlphaProof这样方式合成的数据，但这不是必须项。

对于reasoning_effort参数的实现方式，还比较模糊。一种简单的方式是降低end-think token的概率，迫使模型做更长的思考。也可能是在RL训练时，针对不同粒度的长度惩罚，在回答前增加不同reasoning_effort的标签。这样在推理时直接插入对应的reasoning_effort标签来实现不同长度偏好的推理。