我要投稿

为什么说 OpenAI o1是自Transformer以来最大的更新？

发布日期：2024-09-26 07:30:50 浏览次数： 1956 作者：AI范儿

这正是 Ilya 预见到的，这也解释了为什么 Sam 想要海量的计算资源。

重新定义缩放定律

就像 Transformer 一样，o1 能够有效地用计算资源换取更高的准确性，不同的是，这次是在推理阶段而不是预训练阶段。很多人之前预测LLM能力会停滞，主要是通过外推训练扩展法则，但他们未曾预见到推理扩展才是真正突破收益递减的关键。

这就是 Transformer 技术的 AlphaGo 时刻。所有大实验室都在研究这个领域，OpenAI 是第一个推出的。

通向 AGI 的道路现在清晰了。接下来只要通过图像、视频、网络互动、机器人感官数据等多种数据源来训练这一模型。如果你能够为某项任务设计一个强化学习奖励机制（尤其是代码和数学任务很容易做到这一点），那么你可以通过强化学习和推理计算的结合来大幅提升完成任务的效果。

OpenAI 还引入了一项全新的推理阶段日志缩放定律（Scaling Law），而这已经成为最重要的缩放法则。未来他们会将这一技术进一步扩展 10 倍、100 倍甚至 1000 倍。当然，随着发电厂建设比计算设备更难推进，法规限制也会对研究造成一定阻碍，但由于这一技术的收益巨大且对国家的影响深远，这一进程不会轻易停止。

系统 2 思维

系统 2 （System 2）思维是迈向 AGI 的核心环节之一，这也是我们在 Q* 中反复提到的概念，这个概念源自诺贝尔奖得主 Daniel Kahnemann，区分于所谓的系统 1 思维。

系统 1 思维是一种直觉性思维，比如当你被问到 2+2 等于多少时，你不用思考，答案会直接出现在脑海中。这种方式听起来是不是很熟悉？它实际上和现有的大型语言模型 (LLMs) 的工作方式非常相似——通过直觉化的训练数据来生成答案。

而系统 2 思维则是一种慢速思维，比如如果我问你 26(43)/12 等于多少，你需要一步步分解过程，思考每一步该怎么计算。

这正是现有 LLMs 无法做到的！

由于它们的架构限制，它们只能复述已知知识，而对于未知的部分则会出现所谓的“幻觉”生成（这就是为什么 Yann Lecun 称它们为“概率鹦鹉”）。

而 OpenAI-01 可能是第一个通过思维链来制定计划，并利用这种慢速思维得出答案的模型。这一点在多个基准测试中得到了验证，尤其是数学领域。当然，AGI 要求的是完全准确的推理能力，而系统 2 思维正是实现这种推理的关键。

自我纠错能力

OpenAI-01 能够对自己的回答进行检查和自我纠错。这意味着它在处理问题的过程中会检测和修正错误。在系统 2 思维的框架下，这是一个重要的步骤，可以防止偏离正确的解答路径。

Q 学习与 A 搜索*

Q 学习和 A* 搜索，它们分别是用于学习和解题的算法。这就是为什么 Q* 模型结合了这两种算法。我无法确定 OpenAI-01 中具体实现了哪些部分，但目前看来，这个预览版本仍然存在一些问题。也许在下一个版本中我们会看到更好的结果。总的来说，我们还不清楚这个模型的具体结构。

不过从目前已有的表现来看，OpenAI-01 的基础为实现 AGI 铺平了道路。如果我们理解 AGI 是什么，我们会发现 OpenAI 的这个模型是朝 AGI 迈出的重要一步，但它还不是 AGI 本身。

当然，这一过程中存在风险，但 OpenAI 的报告中有一项显著发现表明，o1 在遵守规则方面表现得越来越好。因此我对 AI 自身引发混乱的担忧少了更多，而我更担心的是坏人会利用这项技术，通过强化学习引导它走向混乱。因此，未来的推进必须谨慎。

智能代理的时代已经正式拉开帷幕，大量推理计算驱动的智能代理将迅速重塑社会。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-27

一文了解Text Embedding模型：从text2vec、openai-text embedding到m3e、bge（上）

2025-04-27

RollingAI创始人刘开出席2025年中国绿公司年会，解读AI商业化落地新思维

2025-04-27

一文讲透 MCP 与 Function calling，你想看的都在这里

2025-04-27

混合专家 (MoE) 架构：现代大模型的“秘密武器”

2025-04-27

一文了解：大模型 Agent 开发框架有哪些？它们的区别是什么？

2025-04-27

大模型应用系列：两万字解读MCP

2025-04-27

一篇文章说清楚什么是生成式AI、决策式AI、判别式AI

2025-04-27

字节Trae 大更新，5分钟看懂AI生成的“神秘代码块”

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

一文了解：大模型 Agent 开发框架有哪些？它们的区别是什么？

2025-04-27

为什么一定要做Agent智能体？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部