我要投稿

OpenAI全新发布o1模型 - 幕后采访及一些原汁原味的解释

发布日期：2024-09-29 07:18:08 浏览次数： 1789 作者：AI产品黄叔

3分钟的幕后人员采访，值得看一遍，我加了中英翻译的字幕

印象深刻的点：

o1是一个推理模型，所以在回答问题之前会推理的更多。
所以什么是推理？有些简单的问题，例如，如果你问意大利的首都是哪里，你知道答案是罗马，你真的不用想太多，但是如果你想知道，复杂的谜题或你想写真正好的商业计划书，你想写小说，你可能需要考虑一下，你想得越多越好。所以推理的结果是转向的能力，思考时间转向更好的结果。
我认为真正酷的是，研究是有一个顿悟的时刻，你们什么时候有那种顿悟的时刻？第一位：产生连贯的思维链

另一位：当我们意识到如果用 RL 训练模型来生成和完善自己的思维链，它能比人类为其编写思维场景做得更好时，我有了一个“啊哈时刻”。这表明我们可以通过这种方式真正scale this（扩大规模），实现卓越的推理能力。

再一位：在训练一个早期的o1模型时，我们开始与它交流，向它提出问题，结果它在我们给的数学题中得分更高。我们观察到它的推理过程，发现它开始质疑自己，并进行有趣的反思。那一刻，我意识到我们发现了一些新的东西，这将带来新的突破。

这是另外一位详细介绍了o1模型的OpenAI研究人员，在OpenAI官方发布的名单中，他的名字位列其中，是Foundational Contributors：

我们直接来看原始信息：

今天，我很兴奋地向大家分享我们在@OpenAI的努力成果我们创造了能够进行真正通用推理的AI模型：OpenAI的新o1模型系列！（又称）让我来解释一下 1/

我们的o1-preview和o1-mini模型现在就可以使用了。我们还分享了我们（尚未最终确定的）o1模型的评估结果，以向世界展示这不仅仅是一次性的改进 —— 这是一种新的扩展范式，而我们才刚刚开始。2/9

o1通过强化学习（RL）训练，在回应之前通过私有的思维链进行"思考"。它思考的时间越长，在推理任务上的表现就越好。这开辟了一个新的扩展维度。我们不再受预训练的瓶颈限制。现在我们也可以扩展推理计算能力。

我们的o1模型并不总是比GPT-4o更好。许多任务并不需要推理能力，有时等待o1的回应相比快速获得GPT-4o的回应并不值得。发布o1-preview的一个动机是为了观察哪些使用场景会变得流行，以及这些模型在哪些方面还需要改进。

此外，OpenAI的o1-preview并不完美。它有时甚至在井字游戏上也会出错。人们会在推特上发布它失败的案例。但在许多人用来展示"大语言模型无法推理"的流行例子中，o1-preview表现得要好得多，o1的表现则令人惊叹，而且我们知道如何进一步扩展它的能力。

（插入，比如很多推特用户测试o1，对于9.11和9.8谁大时，仍然容易出错：）

例如，在上个月举行的2024年计算语言学协会会议上，@rao2z的主题演讲题目是"大语言模型能推理和规划吗？"在演讲中，他展示了一个让所有大语言模型都难以应对的问题。但@OpenAI的o1-preview能够正确解决这个问题，而o1几乎总是能得出正确答案。

@OpenAI的o1模型思考时间以秒计，但我们的目标是让未来版本能够思考数小时、数天，甚至数周。推理成本会更高，但为了一种新的癌症药物你愿意付出多少代价？为了突破性的电池技术呢？为了证明黎曼猜想呢？人工智能可以不仅仅是聊天机器人。

当我加入@OpenAI时，我写过关于我在研究AI在扑克和外交游戏中的推理能力，以及亲眼目睹"思考"所带来的差异如何激励我将这种范式引入大语言模型的经历。这一切发生得比预期更快，但依然印证了当初的想法：

OK，以上是Noam Brown的主体部分，最后这条引用了2023年7月6日的推特贴，也特别值得关注，于是我们继续往下翻译：

我很兴奋地宣布，我已加入@OpenAI！多年来，我一直在研究AI在扑克和外交等游戏中的自我对弈和推理能力。现在，我将探索如何使这些方法真正通用化。如果成功的话，我们也许有朝一日能看到比GPT-4强1000倍的大语言模型。1/

2016年，AlphaGo击败李世石，成为AI发展的一个里程碑。但其中的关键在于AI能够在每步棋前"思考"约1分钟。这种能力究竟能提升多少？对于AlphaGoZero来说，这相当于将预训练规模扩大了约10万倍（有搜索时约5200 Elo，无搜索时约3000 Elo）。2/

同样在2016年，我在扑克中观察到了类似的现象。这一洞察促使我们开发了Libratus扑克AI，它首次击败了顶级人类玩家。@andy_l_jones详细研究了六边形棋中训练时间与测试时间计算能力的权衡，发现了类似的模式：https://x.com/ibab_ml/status/1669579636563656705 3/