AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


为什么说 OpenAI o1是自Transformer以来最大的更新?

发布日期:2024-09-26 07:30:50 浏览次数: 1904 来源:AI范儿

这正是 Ilya 预见到的,这也解释了为什么 Sam 想要海量的计算资源。

重新定义缩放定律

就像 Transformer 一样,o1 能够有效地用计算资源换取更高的准确性,不同的是,这次是在推理阶段而不是预训练阶段。很多人之前预测LLM能力会停滞,主要是通过外推训练扩展法则,但他们未曾预见到推理扩展才是真正突破收益递减的关键。

这就是 Transformer 技术的 AlphaGo 时刻。所有大实验室都在研究这个领域,OpenAI 是第一个推出的。

通向 AGI 的道路现在清晰了。接下来只要通过图像、视频、网络互动、机器人感官数据等多种数据源来训练这一模型。如果你能够为某项任务设计一个强化学习奖励机制(尤其是代码和数学任务很容易做到这一点),那么你可以通过强化学习和推理计算的结合来大幅提升完成任务的效果。

OpenAI 还引入了一项全新的推理阶段日志缩放定律(Scaling Law),而这已经成为最重要的缩放法则。未来他们会将这一技术进一步扩展 10 倍、100 倍甚至 1000 倍。当然,随着发电厂建设比计算设备更难推进,法规限制也会对研究造成一定阻碍,但由于这一技术的收益巨大且对国家的影响深远,这一进程不会轻易停止。

系统 2 思维

系统 2 (System 2)思维是迈向 AGI 的核心环节之一,这也是我们在 Q* 中反复提到的概念,这个概念源自诺贝尔奖得主 Daniel Kahnemann,区分于所谓的系统 1 思维。

系统 1 思维是一种直觉性思维,比如当你被问到 2+2 等于多少时,你不用思考,答案会直接出现在脑海中。这种方式听起来是不是很熟悉?它实际上和现有的大型语言模型 (LLMs) 的工作方式非常相似——通过直觉化的训练数据来生成答案。

而系统 2 思维则是一种慢速思维,比如如果我问你 26(43)/12 等于多少,你需要一步步分解过程,思考每一步该怎么计算。

这正是现有 LLMs 无法做到的!

由于它们的架构限制,它们只能复述已知知识,而对于未知的部分则会出现所谓的“幻觉”生成(这就是为什么 Yann Lecun 称它们为“概率鹦鹉”)。

而 OpenAI-01 可能是第一个通过思维链来制定计划,并利用这种慢速思维得出答案的模型。这一点在多个基准测试中得到了验证,尤其是数学领域。当然,AGI 要求的是完全准确的推理能力,而系统 2 思维正是实现这种推理的关键。

自我纠错能力

OpenAI-01 能够对自己的回答进行检查和自我纠错。这意味着它在处理问题的过程中会检测和修正错误。在系统 2 思维的框架下,这是一个重要的步骤,可以防止偏离正确的解答路径。

Q 学习与 A 搜索*

Q 学习和 A* 搜索,它们分别是用于学习和解题的算法。这就是为什么 Q* 模型结合了这两种算法。我无法确定 OpenAI-01 中具体实现了哪些部分,但目前看来,这个预览版本仍然存在一些问题。也许在下一个版本中我们会看到更好的结果。总的来说,我们还不清楚这个模型的具体结构。

不过从目前已有的表现来看,OpenAI-01 的基础为实现 AGI 铺平了道路。如果我们理解 AGI 是什么,我们会发现 OpenAI 的这个模型是朝 AGI 迈出的重要一步,但它还不是 AGI 本身。

当然,这一过程中存在风险,但 OpenAI 的报告中有一项显著发现表明,o1 在遵守规则方面表现得越来越好。因此我对 AI 自身引发混乱的担忧少了更多,而我更担心的是坏人会利用这项技术,通过强化学习引导它走向混乱。因此,未来的推进必须谨慎。

智能代理的时代已经正式拉开帷幕,大量推理计算驱动的智能代理将迅速重塑社会。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询