微信扫码
添加专属顾问
我要投稿
北京时间凌晨一点,OpenAI 进行了重大更新,预热已久的GPT草莓项目——传说中能够进行高级推理的大语言模型,终于露出真容。OpenAI 发布推特表示,刚刚推出了OpenAI o1-preview模型,名字的含义之前外媒已爆料过,o1应该代表着OpenAI下一代大模型的Orion(猎户座)一代。
OpenAI在发布文档中强调,新模型在推理能力上代表了人工智能的新水平,因此计数器将重置为1,这暗示未来可能不再有GPT-5,o1将代表OpenAI未来的最强水平。即日起,ChatGPTPlus和Team用户就能直接访问该模型,并可手动选择使用o1-preview预览版或小尺寸版o1-mini。o1-preview每周限制30条消息,而o1-mini则为50条。
o1 模型:解决博士级别的科学问题超越人类
虽然目前我尚不能亲自体验o1模型,但OpenAI已放出大量展示其表现的资料。最令人瞩目的无疑是新模型的推理能力。Sam Altman在社交媒体上直接对比了o1与GPT-4o在数学、编程及解决博士级别科学题目上的能力。结果显示,o1预览版在解决数学和编程问题上的能力比GPT-4o提升了5-6倍,而真正的o1模型则提升了8-9倍。更惊人的是,o1在解决博士级别科学题目上的成功率已超越人类专家,达到69.7%以上。
OpenAI的技术博客提供了更具体的数字:o1模型在美国数学邀请赛上能进入前500名,且在物理、生物和化学问题上的准确度也超过了人类博士水平。这意味着大模型技术可能将刷新人们的认知,不再仅仅是“什么都懂一点的大学生”,而能在知识专精上达到新的高度。
这一进步的背后,是o1模型在尝试解决问题时使用的一系列思维策略。通过强化学习,o1学会了完善思维链并纠正错误,将复杂问题分解为简单步骤,并尝试多种方案找到最佳答案。这一特点在OpenAI给出的案例中得到了充分体现:在回答阅读理解或化学问题时,o1模型会展开详尽的思维链,自己提问并回答,最终得出准确答案。
价格未涨,OpenAI用o1-mini解决推理成本问题
在发布前,有媒体猜测新模型因高推理成本可能提高使用费用,甚至高达每月2000美金。但令人惊讶的是,OpenAI并未涨价,而是通过限制使用次数和推出o1-mini版来管控成本。o1-mini版尤其擅长准确生成和调试复杂代码,对开发人员特别有用,且比o1-preview便宜80%。OpenAI还计划为所有ChatGPT免费用户提供o1-mini访问权限。
Scaling Law后最重要的进展?
此次发布不仅是新模型的亮相,更是OpenAI在训练中发现的一个重要现象:通过更多的强化学习和思考时间,o1的性能能持续提高。这不同于传统的scaling law(尺度定律),后者主要关注训练过程中的参数量、数据量和计算量。OpenAI的新模型展示了推理层面的scaling law,即模型在自我内部思考时间增加时,能力也能得到提升。这一发现可能为大模型的未来提升开辟了新的路径。
英伟达具身团队领导者Jim Fan对此给予高度评价,认为这标志着我们已翻过一页,复制了AlphaGo通过自我对弈提升棋艺的成功模式到大模型上。超人的AI,或许真的不再遥远。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-27
一文了解Text Embedding模型:从text2vec、openai-text embedding到m3e、bge(上)
2025-04-27
RollingAI创始人刘开出席2025年中国绿公司年会,解读AI商业化落地新思维
2025-04-27
一文讲透 MCP 与 Function calling,你想看的都在这里
2025-04-27
混合专家 (MoE) 架构:现代大模型的“秘密武器”
2025-04-27
一文了解:大模型 Agent 开发框架有哪些?它们的区别是什么?
2025-04-27
大模型应用系列:两万字解读MCP
2025-04-27
一篇文章说清楚什么是生成式AI、决策式AI、判别式AI
2025-04-27
字节Trae 大更新,5分钟看懂AI生成的“神秘代码块”
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17