微信扫码
与创始人交个朋友
我要投稿
推荐语:OpenAI o3系统表现惊人,深入剖析其智能水平及意义。 核心内容: 1. o3系统在基准测试中的突破性成绩 2. 与以往模型对比的进步趋势 3. o3系统智能水平的核心机制
近期,OpenAI的o3系统在ARC-AGI-Pub基准测试中取得了重大突破,引发了人们对AI真实智能水平的广泛关注。本文将深入探讨o3系统的表现及其背后的意义,以揭示其真实智能水平。
突破性的成绩
o3系统在ARC-AGI-1公共训练集上训练后,在半私有评估集上取得了75.7%的成绩,这一成绩是在公开排行榜规定的10k计算成本限制内取得的,使其在公开排行榜上位居第一。此外,一个高计算配置(计算量为172倍)的o3系统在该评估集上更是达到了87.5%的准确率。这一成绩的取得,标志着AI能力的显著提升,展现了o3在新颖任务适应能力上的巨大进步,这是GPT系列模型从未有过的突破。
与以往模型的对比
从2020年的GPT-3到2024年的GPT-4o,ARC-AGI-1的成绩用了4年时间才从0%提升到5%。而o3的出现,无疑打破了这一缓慢的进步趋势。o3的高效率得分75.7%在计算成本预算范围内,而低效率得分87.5%虽然成本高昂,但也证明了在增加计算资源的情况下,AI在新任务上的性能确实能够得到提升。
智能水平的体现
o3系统的核心机制似乎是自然语言程序搜索和执行。在测试时,模型会在描述解决任务所需步骤的思维链(CoTs)空间中进行搜索,这一过程可能与AlphaZero风格的蒙特卡洛树搜索有些类似,且搜索过程可能受到某种评估模型的引导。这种机制使得o3能够克服以往单一生成式LLMs在面对新奇任务时的局限性,通过生成和执行自己的程序来适应新任务,其中程序本身(CoT)成为了知识重组的产物。
o3代表了一种深度学习引导的程序搜索形式。模型在测试时会搜索“程序”空间(在这种情况下,是自然语言程序,即描述解决手头任务步骤的CoTs空间),并由深度学习先验(基础LLM)引导。这也是为什么解决一个ARC-AGI任务可能会消耗数千万个token并花费数千美元,因为搜索过程需要探索程序空间中的大量路径,包括回溯。
与AGI的距离
尽管o3在ARC-AGI上取得了令人瞩目的成绩,但这并不意味着它已经达到了人工通用智能(AGI)的水平。ARC-AGI作为一个研究工具,旨在聚焦于AI领域中最具有挑战性的未解决问题,但它并非AGI的绝对检验标准。o3在一些非常简单的任务上仍然会失败,显示出与人类智能的根本差异。此外,早期数据表明,即将推出的ARC-AGI-2基准测试仍将对o3构成重大挑战,即使在高计算配置下,其得分也可能降至30%以下,而聪明的人类无需训练就能获得超过95%的分数。这表明,创造对普通人类容易但对AI困难的任务仍然是可能的,而当这种任务创造变得不可能时,AGI或许就真正到来了。
下面三个图中,AI无法通过观察总结前三组图的规律来执行图像处理操作:
成本与效率
值得注意的是,o3的高性能并非单纯通过增加计算资源来实现的。尽管其在低计算模式下的成本较高,每项任务需要17-20美元,但与人类解决ARC-AGI任务的成本(大约每项任务5美元)相比,成本性能仍有待提高。不过,随着时间的推移,成本性能有望得到显著提升,预计这些能力将在不久的将来与人类工作具有竞争力。
未来展望
o3的出现为AI领域带来了新的思路和方向。其成功证明了架构的重要性,仅通过扩大规模和增加数据来提升性能是不够的,进一步的进展需要新的创意和方法。未来,随着对o3的深入研究和开源复制,研究人员将能够更好地理解其优势和局限性,从而推动AI技术的进一步发展。同时,新的基准测试如ARC-AGI-2的推出,将继续挑战AI的极限,为AGI的研究提供更有价值的参考。
总之,OpenAI的o3系统在ARC-AGI-Pub基准测试中的表现确实代表了AI能力的一个重大飞跃。它通过深度学习引导的自然语言程序搜索机制,克服了以往LLMs在新任务适应性上的根本限制,展现出了接近人类水平的性能。然而,距离真正的AGI仍有一定距离,但o3的成功无疑为未来AI的发展提供了新的思路和希望。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-05-28
2024-08-21
2024-04-26
2024-06-13
2024-09-23
2024-08-04
2024-07-09
2024-07-01
2024-07-18
2025-01-24
2025-01-24
2025-01-24
2025-01-23
2025-01-22
2025-01-22
2025-01-21
2025-01-21