AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


o3比o1强在哪里?
发布日期:2024-12-21 14:59:07 浏览次数: 1555 来源:猜想笔记




OpenAI昨晚发布o3,比o1更强大的推理模型。但,到底强在哪里?



//


o3与o1有什么不同?


为什么o3的得分比o1高这么多?而为什么o1的得分又比GPT-4o高那么多?这一系列结果为持续追求人工通用智能(AGI)提供了宝贵的数据点。


大语言模型像一个向量程序的存储库。当被提示时,它们会检索你的提示映射到的程序,并在手头的输入上“执行”它。LLMs是一种通过被动接触人类生成的内容来存储和操作化数百万有用小程序的方式。


这种“记忆、检索、应用”的范式可以在给定适当的训练数据的情况下,在任意任务上达到任意技能水平,但它不能适应新奇事物或即兴学习新技能(也就是说,这里没有流动智能的参与)。这一点在LLMs在ARC-AGI上的低表现中得到了体现,ARC-AGI是唯一专门设计用来衡量对新奇事物适应性的基准——GPT-3得分为0,GPT-4得分接近0,GPT-4o达到了5%。将这些模型扩展到可能的极限,并没有使ARC-AGI的数字接近基本的暴力枚举在几年前就能实现的水平(高达50%)。


要适应新奇事物,你需要两样东西。首先,你需要知识——一套可重用的函数或程序来借鉴。LLMs拥有足够的这些知识。其次,你需要在面对新任务时将这些函数重新组合成一个全新的程序——一个模拟手头任务的程序。程序合成。LLMs长期以来缺乏这一特性。o系列模型修复了这一点。


目前,我们只能推测o3工作的具体细节。但o3的核心机制似乎是在令牌空间内进行自然语言程序搜索和执行——在测试时,模型在可能的思考链(CoTs)空间中搜索,这些CoTs描述了解决任务所需的步骤,这种方式可能与AlphaZero风格的蒙特卡洛树搜索不无相似。在o3的情况下,搜索可能由某种评估模型引导。值得注意的是,Demis Hassabis在2023年6月的一次采访中暗示,DeepMind一直在研究这个想法——这项工作已经酝酿已久。


因此,尽管单代LLMs在新奇事物上挣扎,o3通过生成和执行自己的程序来克服这一点,其中程序本身(CoT)成为知识重组的成果。虽然这不是测试时知识重组的唯一可行方法(你也可以进行测试时训练,或在潜在空间中搜索),但它代表了根据这些新的ARC-AGI数字,当前的最先进技术。


实际上,o3代表了一种深度学习引导的程序搜索。模型在“程序”空间(在这种情况下,自然语言程序——描述解决手头任务步骤的CoTs空间)上进行测试时搜索,由深度学习先验(基础LLM)引导。解决单个ARC-AGI任务最终可能需要数千万美元和数千万令牌,是因为这个搜索过程必须探索程序空间中的大量路径——包括回溯。


然而,这里发生的事情和先前描述的“深度学习引导的程序搜索”作为达到AGI的最佳路径之间有两个重要区别。至关重要的是,o3生成的程序是自然语言指令(由LLM“执行”),而不是可执行的符号程序。


这意味着两件事。首先,它们不能通过执行和直接评估任务来与现实接触——相反,它们必须通过另一个模型来评估适应性,而评估,缺乏这种基础,可能在操作分布之外时出错。其次,系统不能自主获得生成和评估这些程序的能力(像AlphaZero这样的系统可以自己学会玩棋盘游戏)。相反,它依赖于专家标记的、人类生成的CoT数据。


目前尚不清楚新系统的确切局限性以及它可能扩展到何种程度。我们需要进一步的测试来找出答案。无论如何,当前的表现代表了一项了不起的成就,并且清楚地证实了直觉引导的测试时程序空间搜索是一个强大的范式,可以构建能够适应任意任务的AI系统。


o3太贵了!


OpenAI的新o3系统——在ARC-AGI-1公共训练集上训练——以10,000美元的计算限制下,在半私有评估集上取得了突破性的75.7%的得分。一个高计算量(172倍)的o3配置得分为87.5%。


这是AI能力的一个令人惊讶且重要的阶梯式增长。作为参考,ARC-AGI-1从2020年GPT-3的0%得分到2024年GPT-4o的5%得分用了4年时间。


OpenAI o3 ARC-AGI结果,对两个ARC-AGI数据集进行了o3测试:


  • 半私有评估:用于评估过拟合的100个私有任务

  • 公共评估:400个公共任务


在OpenAI的指导下,以两种计算水平和不同的样本大小进行了测试:6(高效率)和1024(低效率,172倍计算)。


以下是结果。



注:o3高计算成本不可用,因为定价和功能可用性仍在待定中。计算量大约是低计算配置的172倍。


由于可变的推理预算,效率(例如,计算成本)现在是报告性能时必须的指标。我们记录了总成本和每任务成本作为效率的初始代理。作为一个行业,我们需要找出哪个指标最能跟踪效率,但从方向上看,成本是一个坚实的起点。


75.7%的高效率得分在ARC-AGI-Pub的预算规则之内(成本<$10k),因此有资格成为公共排行榜上的第一名!


87.5%的低效率得分相当昂贵,但仍然表明,随着计算量的增加,对新任务的性能确实有所提高(至少在这个水平上)。


尽管每任务的成本显著,但这些数字不仅仅是将蛮力计算应用于基准测试的结果。OpenAI的新o3模型代表了AI适应新任务能力的显著飞跃。这不是简单的增量改进,而是一个真正的突破,标志着与以前LLMs的限制相比,AI能力的定性转变。o3是一个能够适应以前从未遇到过的任务的系统,在ARC-AGI领域可以说是接近人类水平的表现。


当然,这种普遍性的代价很高,目前还不太经济:你可以支付人类来解决ARC-AGI任务,大约每任务5美元(我们知道,我们做过),同时仅消耗几分钱的能源。与此同时,o3在低计算模式下每任务需要17-20美元(高计算成本172倍就是3440美元)。但成本性能可能会在未来几个月和几年内显著提高,所以你应该计划这些能力在相当短的时间内与人类工作竞争。 


o3对GPT系列的改进证明了架构就是一切。你不能在GPT-4上投入更多的计算量来获得这些结果。简单地从2019年到2023年扩大我们正在做的事情——采用相同的架构,训练一个更大的版本,使用更多的数据——是不够的。进一步的进步是关于新的想法。

END.


延伸阅读


大语言模型专题 | 计算机视觉专题

AI模型更新 AI技术博客 | AI深度报告



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询