我要投稿

OpenAI o3开启推理scaling，迈向AGI新时代

发布日期：2024-12-21 15:09:03 浏览次数： 1958 来源：NLP轻松谈

OpenAI 12 天活动的最后一期,主要介绍了新一代推理模型 o3 和 o3-mini。主讲人包括 Sam Altman、Mark Chen、Hongyu Ren 以及特邀嘉宾 ARC Prize Foundation 主席 Greg Kamradt。

主要亮点

1. 新模型发布

发布两个新模型:o3 和 o3-mini
o3 是高性能推理模型,o3-mini 则在保持智能的同时优化了性能和成本
目前仅开放用于公共安全测试,预计一月底推出 o3-mini,随后推出 o3

2. o3 模型性能突破

在软件测试基准 SWE-bench Verified 上准确率达 71.7%,比 o1 提升 20%
在 CodeForce 竞赛编程上达到 2727 ELO 分数

AIME 数学竞赛准确率达 96.7%(o1 为 83.3%)
在博士级科学问题基准 GPQA Diamond 上达到 87.7%

在 ARC-AGI 测试上首次突破人类水平阈值(85%),达到 87.5%

3. o3-mini 特点与优势

支持三种推理努力级别:低、中、高
性能方面:中等推理时间下性能超过 o1
成本效益:以极小成本实现比 o1 更好的表现
支持功能调用、结构化输出等开发者功能
在 GPQA Diamond 上达到 62% 的分数

4. 安全策略创新

推出"审慎对齐"(Prudent Alignment)新技术
利用模型推理能力提升安全边界判断
显著改善了拒绝基准和过度拒绝指标
开放外部安全测试申请(截止至 1 月 10 日)

重要时间节点

安全测试申请截止:2025 年 1 月 10 日
o3-mini 预计发布:2025 年 1 月底
o3 完整版:将在 o3-mini 之后推出

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-03-10

1次搭建完胜1亿次编码，MCP硅谷疯传！Anthropic协议解锁智能体「万能手」

2025-03-10

AI代理技术发展趋势与挑战

2025-03-10

有关智能体/Agent，和上下文协议/MCP的一些概念，以及为什么它重要

2025-03-10

通俗讲解DeepSeek中的GRPO：强化学习里的神奇算法

2025-03-10

AI智能体新秀 Manus失手泄底牌：Claude Sonnet沙盒代码大曝光！

2025-03-10

告别Agentic工作流？推理模型+行动链学习=Agent模型

2025-03-10

MCP (Model Context Protocol)，一篇就够了。

2025-03-10

大模型时代，为什么模型都是多少B？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

OpenAI o1与GPT4o的对比分析

2024-09-23

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

一文带你了解大模型——智能体（Agent）

2024-05-28

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

大模型时代，为什么模型都是多少B？

2025-03-10

什么是模型上下文协议（MCP）？它如何比传统API更简单地集成AI？

2025-03-10

大模型的未来，是 Agent 还是 App？

2025-03-08

通用Agent未来形态什么样？

2025-03-08

Manus引爆AI Agent热潮：企业如何在这场科技革命中不掉队？

2025-03-07

一夜刷爆全网的Manus，说是比DeepSeek还牛B？

2025-03-07

DeepSeek-R1后，大模型为何集体‘死磕’思维链？

2025-03-05

CIO 集体焦虑的“AI 信任危机”，DeepSeek 如何突破落地难题？

2025-03-05

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB