我要投稿

草莓的真面目终揭开，OpenAI o1 全方位解析！

发布日期：2024-09-13 08:25:11 浏览次数： 5193 作者：特工宇宙

北京时间凌晨一点左右，OpenAI o1 横空出世，即是之前宣传已久的草莓模型。

“突来的消息，那个模是你，这么多天你杳无音讯...”

特工们也第一时间被推送到了新模型，这下直接不困了。

不就是发了两个模型，十几个演示视频，43 页的论文嘛，起来肝就完了！

没睡的特工，出列！拉群开整！

o1 核心特点是能够在给出回复前用更多时间进行思考，模仿人类解决复杂问题的思考方式，并且思考越久，推理任务的表现就越好。

这一机制是 o1 对无限推理模型的迈进，同时也将 AI 在复杂推理任务上的能力提升到一个全新高度。

所以 OpenAI 将计数器重置为 1，并将这个系列命名为“OpenAI o1”。不同于之前的各个期货，直接上线，毫不拖拉。

记得坚持看完！因为每段内容都不太一样，都有新收获！～

简介与评估

简单的来说，OpenAI o1 系列模型，在复杂推理上的性能提升模式与传统 LLM 预训练式的性能提升不同，主要通过强化学习的方式，让模型不断完善思考过程，包括对不同策略进行尝试，认识到错误等。

而正是这一新训练模式，让 o1 模型拥有了同博士生般推理能力。同时根据报告显示，这一模式是可能存在 Scale up 的。下面具体介绍在这一新训练模式下，o1 展示出的令人惊讶的性能！

观察下图我们可以发现，o1 在各类机器学习基准测试中，远胜于 GPT-4o 模型（注：pass@1的意思是一次通过）

而在 GPQA Diamond* 上，o1 甚至成为第一个能击败人类专家的模型，虽不能直接说明 o1 能力超过人类专家，但足以表现出其“博士级”的推理思考能力。

GPQA Diamond ：一个困难的智力基准，用于测试化学、物理和生物学方面的专业知识。

实线条显示一次通过的准确率，阴影区域显示 64 个样本的平均性能

文科向评估中 o1 相比于 4o 提升不算太大，而在逻辑推理方面，o1 远胜 4o

其中值得关注的是，为了展示 o1 的逻辑推理能力，OpenAI 选择了 AIME 作为测试。这属于美国数学竞赛中仅次于奥林匹克数学竞赛的项目，难度极大，非常灵活。

而 o1 在这一基准的表现，相比于 GPT-4o 仅拿下 12% ，在 1 样本提示的前提下，平均拿下 74%！而在 64 个样本的共识中，更是达到 83%，最为夸张的是，如果使用 1000 样本，则可以直接拿下 93%，足以进入美国前 500 名。

至于编程能力方面，OpenAI 以 o1 为基础，经过不断训练改进后的模型，最终能在模拟 cf 编程竞赛中得分 1807，超过 93% 的人类选手，而 GPT-4o 仅得到 808 分。

而在人类偏好评估方面，除复杂推理外，o1-preview 对比 4o 也是占据主要优势，不过在推理要求不高的场景下，人们还是更偏向于 4o 模型。

安全方面，总体相比于 4o 保持改进或相当（好像大家对安全都不那么感冒）。

CoT（思维链）

除去推理能力的提升，思维链的嵌入让 o1 相比于 4o 产生了能力的飞跃，o1 可以在尝试解决问题时，先进行一系列的思维链推导，而这其中包括了意识并纠正错误，问题拆解与规划，不同策略的尝试...（这不就是我们人类解决复杂问题的过程吗）

官方为了展示整个过程，给出了在 Code，Math，Science 等场景下的真实案例，并且展示了 CoT 的过程。

其中我们比较关注了数学方面的 case，因为对于以往的大语言模型来说，数学方面的回答总是存在大量论断，过程不严谨，在不调用外部计算器的情况下，计算也经常出现问题。

团队数学专业的小特工进行了测试（虽然算不上特别特别难的题，但对于修读大学数学专业的大一同学已是不小挑战的难度）。

原理

https://platform.openai.com/docs/guides/reasoning?reasoning-prompt-examples=coding-planning

特工们在挖掘 o1 时，发现在 OpenAI 的官网上有这样一张图，简单解释是如下：

用户输入问题后，o1 相比之前 GPT 系列模型多使用一个叫做“推理标记”的东西，你可以理解为它学会了像人一样选择在什么时候进行思考，并输出当前的想法，而这些“推理标记”中的“思考”的内容，并不会展示出来。这也是为什么有体验者提到，模型的等待时间比较久，正是因为思考的过程并不会显式地展示；
在新一轮的对话中（用户第二次输入），上一轮“思考”的内容全部被删除，开始全新的“思考”；
依此类推，当对话到达128k Tokens的上限时，模型会给出一个“删减版”答案，也避免了我们白白等待却碰到了上下文上限。

这个做法，不禁让特工想到当年它的名字还叫 Q*，而 Star 的来由正是 StaR 系列的论文。

其中这篇《Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking》的方法与 OpenAI 在 o1 中的做法有很多相似之处，感兴趣的小伙伴可以阅读这篇以及这个系列的文章。

（想在其它博主那里看到又干货又及时的整理可不容易哦，只此一家）

Life can only be understood backward, but it must be lived forward - Søren Kierkegaard
(Quiet-STaR 在论文的 Abstract 引用了这句话，当时觉得挺有意境的)

官方演示视频

OpenAI 直接怒发十几条演示视频，我和我的小伙伴都惊呆了。

并顺手将他们保存到了云文档：https://agentuniverse.feishu.cn/wiki/E7IIwVABoiKS7LkExDfc8tGInqh（部分机翻可能存在一些错误，时间匆忙敬请谅解）。

1. 数 strawberry 中 r 个数。

2. 制作在 HTML 上可以玩的贪吃蛇小游戏。

3. 将存在错误不通顺的韩语，正确翻译为了英文。

4. 破解逻辑谜题。

5. 做数学题。

总结（o1 很强，但不要尬吹）

在 OpenAI 的文章中，我们能注意到，无论从用户反馈还是实际测评，o1 更多是作为弥补先前大模型缺失的推理能力，而非在全方位碾压所有模型，可谓术业有专攻，选择自己合适的才是最好的。

OpenAI 只做了简单的 self-play，思维模式仍然难以琢磨，很难说 o1 是好的思维模式（引用自 MetaGPT 作者吴承霖）。

按照评分，o1-preview 的幻觉频率低于 GPT-4o，而 o1-mini 的幻觉频率低于 GPT-4o-mini。

但也有一些反馈表明 o1-preview 和o1-mini 似乎比 GPT-4o 和 GPT-4o-mini 更容易产生幻觉。全面理解幻觉现象还很远，特别是在我们的评估未涉及的领域（例如化学）。

According to these evaluations, o1-preview hallucinates less frequently than GPT-4o, and o1-mini hallucinates less frequently than GPT-4o-mini. However, we have received anecdotal feedback that o1-preview and o1-mini tend to hallucinate more than GPT-4o and GPT-4o-mini. More work is needed to understand hallucinations holistically, particularly in domains not covered by our evaluations (e.g., chemistry). Additionally, red teamers have noted that o1-preview is more convincing in certain domains than GPT-4o given that it generates more detailed answers. This potentially increases the risk of people trusting and relying more on hallucinated generation.