微信扫码
添加专属顾问
我要投稿
深入解析o1模型的技术分析,揭示其背后的技术逻辑和误区。 核心内容: 1. 反思历史错误原因,分析技术分析偏差 2. o1模型的最新猜测与技术方案 3. o1模型推理过程与回答格式template
现在大家对o1都已经不那么关注了,(虽然说即使到现在其实很多人仍然不理解o1的能力)。
在翻老文章的时候,发现之前对于o1的技术分析中猜错的部分较多,结合目前的信息应该重写一版分析了。所以标题叫做重制版,算是一个长期留存版本吧。
先反思一下为什么当时分析的方向错了,应该是受到以下因素的影响:
拾象出了一个LLM RL范式的报告,虽然说现在来看RL这部分是对的,但其他并不对,现在看起来并不需要MCTS和PRM。
Gemini的AlphaProof工作正好符合MCTS的示例,并且比较符合我们对数学推理数据的想象。
o1的分段思考摘要特性。
本文替换掉以下历史文章:
本文的猜测基于以下前提假设:最容易实现且能够实现该效果的方式可能性最大。
o1模型主要是在post-training阶段进行了RL训练,只针对了数学等部分场景设计了reward进行训练。如果不好想象的话,可以参考DeepSeek R1和R1-Zero的训练过程,虽然未必用了GRPO,但估计大概也是种类似的RL方案。在推理阶段也是直接先think再回答,只是单路推理。推理方面可以直接参考R1模型的推理过程。
虽然只是在部分场景进行了直接针对reward的RL训练,但能力可以泛化到其他领域。在DeepSeek R1上也能看到类似的效果。
在回答格式template上,基本类似于R1的think、answer两段式。
不过回答格式template中大概率还预埋了一个粗粒度step结束的特殊token,或者说分节标记token。这个step结束token目前的主要作用是帮助在流式思考过程中方便每个step结束时就触发总结思考过程,以实现流式的思考step摘要生成。在没有好的RPM的情况下,这个step结束token似乎没有什么别的用处。
流式思考过程的摘要是一个旁路过程,由step结束token触发,把思考过程摘要并翻译到用户账号语言。这个模型似乎不大,经常有一些bug。
除此之外应该没有别的旁路过程了。并不需要独立的监督或者对齐过程,推理模型本身在对齐和对抗reward hacking上就是比之前模型更好的。
并不需要先通过RL方式合成数据然后再post training的方式,Online RL方案就可以在训练过程中合成数据并直接进行训练。不过其中得到的高reward trace是可以存下来和其他任务的数据合在一起再训练的。当然并不排除在数据中掺有类似AlphaProof这样方式合成的数据,但这不是必须项。
对于reasoning_effort参数的实现方式,还比较模糊。一种简单的方式是降低end-think token的概率,迫使模型做更长的思考。也可能是在RL训练时,针对不同粒度的长度惩罚,在回答前增加不同reasoning_effort的标签。这样在推理时直接插入对应的reasoning_effort标签来实现不同长度偏好的推理。
从token生成速度和时间测量来看,o1模型的生成时间与总生成token量成线性。但对于o1 pro mode来说,并没有这样的线性关系。
再考虑到o1 pro mode不能流式给出结果,它应该是一种多路采样再选择答案的方式。候选只有Self-Consistency或者Best-of-N两种方式,具体不知道使用了哪种。
目前OpenAI没有独立的o3模型发布计划,o3-mini已经开放,成本与o1-mini相同,预计也是使用类似o1的方式。
我们对于o3的成本了解只有之前ARC-AGI测试给的那张图,它成本的增加很快,感觉不像是单路推理,但具体细节很难推测了。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-09
8分钟打造一个DeepSeek API智能测试引擎:当咖啡还没凉,测试报告已出炉
2025-03-09
lceberg 助力 B 站商业化模型样本行级更新的实践
2025-03-09
单卡4090微调DeepSeek-R1-32B
2025-03-08
QwQ总结能力测评,32b小模型真能超过deepseek吗
2025-03-08
为什么vLLM做不到?解密Ollama越级部署黑科技:以DeepSeek-R1-8B为例
2025-03-07
为什么Manus底层模型没用DeepSeek?——Manus六问六答
2025-03-07
Cherry Studio 发布 v1.0.0 版本支持联网搜索
2025-03-07
Claude 3.7 Sonnet 使用结论
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01