AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


o3 发布了,摔碎了码农的饭碗
发布日期:2024-12-21 06:00:10 浏览次数: 1723 来源:夕小瑶科技说


OpenAI 连续 12 天的直播,已经全部落下帷幕。

如本文标题,没想到,最后一天直播的核心内容竟然是 o3,以及 o3 mini 的预告。

为什么不是 o2?因为为了避免版权纠纷,OpenAI 放弃了 o2 的命名,直接叫 o3。

如果你让我用一句话来描述 o3,那么我可能会很郑重的告诉你——

未来,或许码农这个职业将不复存在,而短期内,也将遭受巨大的岗位需求和薪资冲击。

好消息是,o3 在美国,先从美国市场开始...

看到这儿,你肯定觉得我在扯淡,甚至都想好了回复话术——这句话我近两年听了 800 遍了。

但这次,o3 其实是在实践意义上证明了,对于编程这种能良好的形式化定义任务 reward 以及轻易拿到过程数据的任务,通过对 RL 范式的 scale up,它的上限可以被持续拉高,直到成为世界上最顶级的程序员之一。

这张人类在线编程竞技平台 codeforces 上面的图是关键——

链接:

https://codeforces.com/ratings/page/1

这张图红框位置,就是 o3 模型的 Elo 得分(2727 分)所对应的排名(175 名)。

这里要首先科普&强调一下,AI 在 codeforces 上面参与竞赛,是跟人类选手一样,在比赛时才会拿到赛题。如果高分参赛者输给了低分参赛者时,那么高分参赛者的 Elo 分数会下降,而低分参赛者的 Elo 分数会上升。

理论上 AI 是不可能在训练阶段见过这些赛题的。这个 Elo 分数和排行榜排名对于反映 AI 与人类程序员相比的真实编程水平有很强的参考意义。

那么, o3 在这个竞赛中排名 175 名是什么概念呢?

目前这个竞赛,有 168076 名来自全球各地的程序员参赛。

这意味着 o3 已经在编程竞技中击败了世界上 1-175/168076=99.9% 的程序员。

要知道,几个月前大火的 GPT-4o,在这个竞赛中,仅仅打败了世界上 11% 的程序员——

强如 o1,也仅仅打败了 93% 的人类程序员(早期的 o1-preview 仅打败了 62% 的程序员)。

而 o3,直接给干到了超越 99.9%,成为了世界排名第 175 名的顶尖程序员。

要知道,字节跳动、腾讯、阿里等大厂都有 10 万量级的员工,每个公司里,光年薪百万的程序员都超过 175 个人了。

o3 的发布,将是冲击码农岗位需求和薪资的里程碑事件。

如果说,codeforce 里面反映的是 AI 和人类解决困难算法问题的能力,那么,SWE-bench 则是直接反映 AI 解决真实软件工程的能力(测试 AI 模型自动解决 GitHub 问题的能力)。

SWE-bench 挑战 AI 模型根据给定的 Github 代码库(codebase)和问题描述(issue)生成相应的代码补丁(patch)来解决问题。这个测试平台不仅关注算法解题能力,而且更全面地评估 AI 模型在实际软件工程任务中的表现,包括但不限于代码缺陷检测、代码质量评估、代码变更预测等。其中,SWE-bench Verified 是 SWE-bench 的一个经过五年经验码农人工验证的子集,由 OpenAI 发布。这个子集包含了 500 个样本。

直接贴图——

在 SWE-bench 中,o3 的跑分直接拉到了 71.7,直接拿下目前模型中的最高水平,甚至领先 o1 20多个点的 acc。

这里的 71.7% 的 accuracy 是什么概念呢?

你可以理解成,o3 成功的解决掉了 71.7% 的问题,即 o3 能直接为 71.7% 的问题生成正确代码补丁(patch)并通过单元测试

这可能意味着,至少有 70% 本来需要程序员去救火的工程问题,o3 能直接去解了。

而问题的总量可能不会更多(甚至可能会因为 o3 打底早期代码而变得更少),但需要人类程序员去解决的需求却大量减少了,这对于行业意味着什么呢?

我想我不用再多废话了。

其他测试

不仅是编程能力,o3 在数学上的能力也非常惊艳,在 AIME 2024(数学测试基准)中,o3 得分 96.7%。

这意味着什么呢?它相当于 o3 在 AMO 美国数学奥林匹克竞赛上,只答错了 1 道题。

另一个测试基准,GPQA Diamond(博士级科学问题测试)中,o3 的得分也达到了 87.7%,甩开上一代 o1 接近 10 个百分点。

此外,OpenAI 还进行了一项名为“ARC-AGI”的有趣测试。

测试的主要形式,就是图形逻辑推理。每轮举出 3-5 个例子,图形的大小为从 1x1 到 30x30 的任意大小的网格图形,让 AI 根据图形变化的规律,预测出下一个图形的形式。(有点像小学数学规律题)

这题目拿给我们人类来做,真的是简简单单啊。

但对于 AI 来说就犯了大难了。拿出往年的 ChatGPT 各种型号在 100 项半私有评估中的得分来看,真的是惨不忍睹:

  • GPT-3:0%
  • GPT-4:2%
  • GPT-4o:5%
  • o1-preview:21%
  • o1 满血版:32%
  • o1 Pro:50% 左右。

为啥这么难?因为在这个 ARC-AGI 测试中,所有任务都具有独特性,无法提前准备;不需要特定的世界知识或语言能力;仅依赖人类普遍具备的核心认知能力。

而且,AI 参与 ARC-AGI 测试的要求是:让 AI 在 ARC-AGI-1 公共训练集上进行训练,训练的预算成本要小于 1 万美元。

在这项测试中,o3 微调成了两个模型:o3 low 和 o3 high。其中,o3 low 的得分直接跑到 75.7%,并且符合公共排行榜的成本要求,直接成为新的榜单 TOP1;而 o3 high 的得分,更是飙升到 87.5%,超越了人类评估的阈值(85)!

不过 o3 high 的训练成本大约是 o3 low 的 172 倍,超出了 1 万美元的成本要求

AI 进步的速度,甚至让我怀疑今年到底是不是 2024 年。不知道在座的小伙伴们,对 o3 high 的 87.5% 得分有何看法……

最后,还有个为 o3 准备的地狱级测试也非常值得关注——

FrontierMath

这个测试由研究机构 Epoch AI 推出,专门用于评估 AI 的高级数学推理能力,地狱级难度的数学 benchmark。

为了防止数据污染,测试内容均为最新的、还未发表的题目。关于题目的难度,即使是经验丰富的人类数学专家,也需要花费数小时或数天,才能解答测试题目。1998 年菲尔兹奖得主 Tim Gowers 是这么评价这些题目的:

即使是答对一个问题,也远远超出了我们现在的能力范围。

它要求 AI 有极强的推理能力,此前最强模型得分(SOTA)仅仅只有 2%。

而在 OpenAI 的测试中,甚至如果不限制时间的话,o3 的得分竟然可以达到 25.2%!

那是不是可以拿 o3 去解决很多数学悖论了?我已经迫不及待看到明年数学界的狂欢了。

更多关于 o3 的完整测试,可以看如下测试报告:

https://arcprize.org/blog/oai-o3-pub-breakthrough

o3 为什么这么强

用 OpenAI 研究员的话来解释 o3 为什么这么强——

意思就是,o1 仅仅是验证了 LLM+RL 的范式是跑的通的,但我们并没有认真玩儿。

o3 呢,就是用这个范式认真玩儿了,通过 scaling up 的方式来把 LLM+RL 的范式真正的威力给训了出来。

由此也真的验证了一件事儿——

对于编程、数学等能良好的形式化定义任务 reward 以及轻易拿到过程数据的任务,通过 RL 范式,它的上限确实可以被持续拉高,直到成为世界上顶级的程序员、研究员。

o3 有没有缺点?

o3 强吗?强!但这是拿超高的成本换来的,在 ARC-AGI 团队的描述中,o3 是他们见过的有史以来最昂贵的模型。

除此之外,那就是模型思考的时间又变长了。

OpenAI 以思考的时间和成本为基准,不仅将 o3 系列分成了 o3 和 o3 mini,甚至更进一步的将 o3 mini 分成了 low、medium、high(低中高)三个型号。

而 o1 的平均思考时间是 8.92 秒,o3 mini(high)直接翻了差不多两倍,达到了 23.33 秒的平均思考时间。

这个 2333 我怎么觉得这么有嘲讽意味,可能我这个人类太敏感了。

而 o3 mini(high)在一些任务上是 o1 水平,o3 旗舰版的平均思考时间这里没有放出来,可能已经达到了分钟级。

o3 mini:一月底就出!

最振奋人心的消息就是,o3 mini 预计明年一月底就出!只需要再等一个月!

o3 mini 上线后,很快也会开放 API 调用,并将附带 o1 的所有 API 功能

附o3模型测试申请:
https://openai.com/index/early-access-for-safety-testing/

最后,谢谢 OpenAI 成功让我熬了 12 天夜。

我甚至可以把 OpenAI 的直播内容概括到 1 天:

上午,面向现在,OpenAI 发布了 o1 满血版、o1 pro、Sora、实时视觉、API、坑爹的 200 美元订阅套餐。

下午,面向未来,o3 让我们离 AGI 更近了一步,但也令我们要更加迫切的思考打工人将何去何从。

参考资料:
https://x.com/__nmca__/status/1870170098989674833
https://arcprize.org/blog/oai-o3-pub-breakthrough
https://x.com/ai_for_success/status/1870165986319740939
https://openai.com/index/early-access-for-safety-testing/



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询