AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


OpenAI全新发布o1模型 - 幕后采访及一些原汁原味的解释
发布日期:2024-09-29 07:18:08 浏览次数: 1622 来源:AI产品黄叔



3分钟的幕后人员采访,值得看一遍,我加了中英翻译的字幕

印象深刻的点:

  1. o1是一个推理模型,所以在回答问题之前会推理的更多
  2. 所以什么是推理?有些简单的问题,例如,如果你问意大利的首都是哪里,你知道答案是罗马,你真的不用想太多,但是如果你想知道,复杂的谜题或你想写真正好的商业计划书,你想写小说,你可能需要考虑一下,你想得越多越好。所以推理的结果是转向的能力,思考时间转向更好的结果
  3. 我认为真正酷的是,研究是有一个顿悟的时刻,你们什么时候有那种顿悟的时刻?第一位:产生连贯的思维链

另一位:当我们意识到如果用 RL 训练模型来生成和完善自己的思维链,它能比人类为其编写思维场景做得更好时,我有了一个“啊哈时刻”。这表明我们可以通过这种方式真正scale this(扩大规模),实现卓越的推理能力

再一位:在训练一个早期的o1模型时,我们开始与它交流,向它提出问题,结果它在我们给的数学题中得分更高。我们观察到它的推理过程,发现它开始质疑自己,并进行有趣的反思。那一刻,我意识到我们发现了一些新的东西,这将带来新的突破。


这是另外一位详细介绍了o1模型的OpenAI研究人员,在OpenAI官方发布的名单中,他的名字位列其中,是Foundational Contributors:



我们直接来看原始信息



今天,我很兴奋地向大家分享我们在@OpenAI的努力成果 我们创造了能够进行真正通用推理的AI模型:OpenAI的新o1模型系列!(又称 ) 让我来解释一下 1/



我们的o1-preview和o1-mini模型现在就可以使用了。我们还分享了我们(尚未最终确定的)o1模型的评估结果,以向世界展示这不仅仅是一次性的改进 —— 这是一种新的扩展范式,而我们才刚刚开始。2/9



o1通过强化学习(RL)训练,在回应之前通过私有的思维链进行"思考"。它思考的时间越长,在推理任务上的表现就越好。这开辟了一个新的扩展维度。我们不再受预训练的瓶颈限制。现在我们也可以扩展推理计算能力。



我们的o1模型并不总是比GPT-4o更好。许多任务并不需要推理能力,有时等待o1的回应相比快速获得GPT-4o的回应并不值得。发布o1-preview的一个动机是为了观察哪些使用场景会变得流行,以及这些模型在哪些方面还需要改进


此外,OpenAI的o1-preview并不完美。它有时甚至在井字游戏上也会出错。人们会在推特上发布它失败的案例。但在许多人用来展示"大语言模型无法推理"的流行例子中,o1-preview表现得要好得多,o1的表现则令人惊叹,而且我们知道如何进一步扩展它的能力


(插入,比如很多推特用户测试o1,对于9.11和9.8谁大时,仍然容易出错:)




例如,在上个月举行的2024年计算语言学协会会议上,@rao2z的主题演讲题目是"大语言模型能推理和规划吗?"在演讲中,他展示了一个让所有大语言模型都难以应对的问题。但@OpenAI的o1-preview能够正确解决这个问题,而o1几乎总是能得出正确答案。



@OpenAI的o1模型思考时间以秒计,但我们的目标是让未来版本能够思考数小时、数天,甚至数周。推理成本会更高,但为了一种新的癌症药物你愿意付出多少代价?为了突破性的电池技术呢?为了证明黎曼猜想呢?人工智能可以不仅仅是聊天机器人



当我加入@OpenAI时,我写过关于我在研究AI在扑克和外交游戏中的推理能力,以及亲眼目睹"思考"所带来的差异如何激励我将这种范式引入大语言模型的经历。这一切发生得比预期更快,但依然印证了当初的想法:


OK,以上是Noam Brown的主体部分,最后这条引用了2023年7月6日的推特贴,也特别值得关注,于是我们继续往下翻译:



我很兴奋地宣布,我已加入@OpenAI!多年来,我一直在研究AI在扑克和外交等游戏中的自我对弈和推理能力。现在,我将探索如何使这些方法真正通用化。如果成功的话,我们也许有朝一日能看到比GPT-4强1000倍的大语言模型。1/



2016年,AlphaGo击败李世石,成为AI发展的一个里程碑。但其中的关键在于AI能够在每步棋前"思考"约1分钟。这种能力究竟能提升多少?对于AlphaGoZero来说,这相当于将预训练规模扩大了约10万倍(有搜索时约5200 Elo,无搜索时约3000 Elo)。2/ 



同样在2016年,我在扑克中观察到了类似的现象。这一洞察促使我们开发了Libratus扑克AI,它首次击败了顶级人类玩家。@andy_l_jones详细研究了六边形棋中训练时间与测试时间计算能力的权衡,发现了类似的模式:https://x.com/ibab_ml/status/1669579636563656705 3/



所有这些先前的方法都是针对特定游戏的。但如果我们能发现一个通用版本,其带来的好处可能是巨大的。是的,推理可能会变得1000倍更慢、更昂贵,但为了一种新的癌症药物,或者为了证明黎曼猜想,我们愿意付出多大的推理成本呢?4/



提升能力总是有风险的,但如果这项研究成功了,它对安全研究也可能是有价值的。想象一下,能够花费100万美元进行推理,以了解未来更强大的模型可能会是什么样子。这将给我们一个我们原本缺乏的预警 5/



如果你对这个或类似的问题感兴趣,来加入我们吧!我在2012年从金融转行到AI领域,这是我做过的最好的决定。随着整个AI领域被彻底颠覆,现在是开始进入这个领域的绝佳时机。https://openai.com/careers 6/6


原来,一切早就有暗示!


o1出来了,通往AGI的道路解锁了么:


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询