我要投稿

o3来了！编程跻身人类全球前200，破解陶哲轩说难的数学测试，北大校友任泓宇现身直播间

发布日期：2024-12-21 05:16:22 浏览次数： 1902 作者：量子位

OpenAI公布下一代模型，o1之后直接o3！

“双12”直播活动最后一天，终于来了个大的，奥特曼本人也再次现身直播间。

o3相比o1最突出的成绩，一是顶尖程序员竞赛CodeForces分数超过2700，人类超过这个分数的目前只有不到200个。

二是在为AGI准备的测试ARC-AGI上分数从32%跃升到了75.7%、87.5%。

为什么有两个成绩呢？

因为o3支持低思考程度和高思考程度两种设置，高思考程度花费的算力（横轴）也直接拉满。

ARC-AGI是Keras之父François Chollet发起的测试基准，典型题目为图形逻辑推理。

另一项测试是号称最难数学测试的EpochAI Frontier Math，包含最新未公开前沿题目。

此前陶哲轩对这项测试的第一印象是“可能难住AI好几年”。

o3在测试中比之前SOTA从2分提升到25分。

人类专业数学家解决其中一道题目也要花费数小时到数天，现在o3只需要思考几分钟了。

这次直播还公布了o3-mini，支持低中高三种思考程度设置。

主要展示了代码能力，低设置下o3-mini和o1-mini差不多，中高设置已经超过了o1正式版。

参与研究的北大校友任泓宇，现场展示了o3-mini的编程能力。

他使用了特殊版本的ChatGPT，称为ChatGPT α。

任务如下：

写一个Python脚本，在本地为一个带有大文本框的HTML文件启动服务器。当我在该框中输入文本并按下提交时，它应该将该代码请求发送到OpenAl o3-mini API ，使用medium reasoning_effort ，获取生成的代码，将其保存到桌面上的临时文件中，然后在新的Python终端中执行该文件。还有一些细节：
可以在~/api_key中找到我的API密钥
请在向API的请求中添加一些额外的提示，指定它只应返回没有任何格式或Markdown的原始代码
你将在Mac笔记本电脑环境运行

o3-mini的思考过程用了38秒，然后代码秒出，一次运行成功。

这个演示可能不太直观，但是看得没去现场的另一位OpenAI研究员Aidan Clark直出汗。

总结一下，就是o3-mini用38秒给自己写了一个UI，通过API调用“自己”。

后续演示中，任泓宇要求o3-mini在这个UI中编写并执行一个脚本，来评估“它自己”在低思考程度下、在GPQA数据集上的表现。

脚本正确运行了评估，返回结果数值61.62%，与正式评估结果基本一致。

是不是有一点科幻的感觉了。

可惜呐～ o3和o3-mini目前都是早期预览状态，只给看不给玩。

安全研究者可以在OpenAI官网申请早期访问权限。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-24

温度参数：调节AI输出的确定性与创造性平衡

2025-04-24

从搜索到解决方案：解锁火山 DeepSearch 的“三连跳” MCP 玩法

2025-04-24

一文搞懂：RAG、Agent与多模态的行业实践与未来趋势

2025-04-24

字节扣子空间 VS 智谱AutoGLM，谁家Agent更好用？（附邀请码）

2025-04-24

Function Calling已经过时，MCP才是真正的大模型接口标准

2025-04-24

大模型技术创新驱动的AI生态和应用演进

2025-04-24

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

2025-04-21

从“大模型热”到“Agent 潮”，“真风口”还是“伪命题”？

2025-04-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部