我要投稿

OpenAI o1背后技术猜测

发布日期：2024-09-17 21:30:58 浏览次数： 2431 作者：Afunby的 AI Lab

本月 12 日， OpenAI 发布了其最新的 "Strawberry 草莓模型“，即 o1 模型。该模型专门用于解决需要高级推理的复杂问题。在实际使用过程中，o1 模型会根据用户用户，进行多步推理，在推理的基础上给出最终答案：

但官方报告对 o1 的技术架构和训练方法基本没有明确的说明，只是提及了强化学习（Reinforcement Learning，RL）和思维链（Chain of Thought，CoT）这两个关键词：

Through reinforcement learning, o1 learns to hone its chain of thought and refine the strategies it uses. It learns to recognize and correct its mistakes. It learns to break down tricky steps into simpler ones. It learns to try a different approach when the current one isn't working.

通过强化学习，o1 学会了磨练其思维链条并优化所使用的策略。它学会了识别并纠正自己的错误。它学会了将复杂的步骤分解为更简单的部分。它学会了在当前方法行不通时尝试不同的途径。

Tom Yeh 猜测 o1 训练和推理时的方式如下，并简单解释了其与传统 RLHF 的不同：

传统 RLHF 中，用户的 Prompt 和大模型的 Answer 输入到奖励模型中。当模型的回答没有与人类期望对齐时，RLHF 过程会调整 LLM 的参数；
RLHF +CoT：训练阶段，生成的 CoT 序列与 Prompt、Answer 一起送入奖励模型中获得反馈更新 LLM；推理阶段，LLM 首先生成 CoT 序列，然后再根据 CoT 序列生成最终的答案。

Reddit 上的大神则综合 OpenAI 所有的公开信息，与 Claude3.5 “讨论”出了一个 o1 的可能架构，也算是“尝试魔法破解魔法”：

原文中的图如下：

这个架构将 o1 的技术栈划分为数据、训练、推理三个方面进行了解释：

数据：使用包括合成数据、CoT 数据、人类专家以及 CoT生成器进行数据生成；
训练阶段：使用 RL 对生成的 CoT 和最终答案进行训练，奖励函数 (Reward Function)，用于验证和人类标注，使用策略优化器 (Policy Optimizer) 进行梯度计算、参数更新等。针对 RL 技术，可能采用了课程学习、多智能体训练等高级 RL 技术。
推理阶段：推理阶段使用训练好的模型，进行初始 CoT 生成， CoT 细化，测试计算，效率监控等步骤。最终生成的 CoT 不仅是输出中的一部分，还要存储起来，在后续的训练中用于模型的优化。

但这个图实际上也是一个 RLHF 中比较通用的图，尤其是在策略优化中，展示的“探索与利用之间的平衡“、Actor-Critic System 等，在 RL 优化中属于很常见的部分，并未说明针对 CoT 的生成过程进行了怎样的独特优化技术。

另外，在训练过程中使用的 Muti-Agent Training 方法，是否足够稳定？有哪些工程化的方法确保了其运行的可靠？

最后，由于担心封号，初步尝试了使用 o1 自己能不能说出一些细节，但 o1 也是守口如瓶，我问它 o1 与 GPT-4 的区别，它用 GPT-3.5 与 GPT-4 的差异忽悠我：