我要投稿

o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

发布日期：2024-09-30 07:51:33 浏览次数： 1839 作者：量子位

o1-preview终于赢过了mini一次！

亚利桑那州立大学的最新研究表明，o1-preview在规划任务上，表现显著优于o1-mini。

相比于传统模型的优势更是碾压级别，在超难任务上的准确率比Llama3.1-405B高了11倍。

要知道之前，OpenAI自己人也发了一张图，显示preview论性能比不过满血版，论经济性又不如mini，处于一个十分尴尬的地位。

作者在推文中表示，尽管存在可保证性和成本问题，但仅针对CoT而言，o1已经超越了大模型的“近似检索”性质，提升到了“近似推理”层次。

并且在论文中，o1全程被称作LRM（Large Reasoning Model，大型推理模型），而非一般大型语言模型的LLM。

o1团队的核心成员Noam Brown也转发了这项研究，顺便给o1-preview打了个call。

还有网友翻出了隔壁Meta的LeCun半个多月前的推文，当时LeCun说大模型没有规划能力，结果现在OpenAI就带着o1来踢馆了。

用“搭积木”测试大模型

为了评估o1系列模型的规划能力，作者使用了PlanBench评估基准。

该基准的提出者中也正好包含了本文三名作者中的两名——共同一作Karthik Valmeekam，以及他的导师Subbarao Kambhampati。

PlanBench专门为评估大模型规划能力而设计，任务类型涵盖了计划生成、成本最优规划、计划验证等。

具体到这个实验，作者使用了其中来自于国际规划竞赛（IPC）的Blocksworld和其变体。

此类问题涉及在桌子上堆叠积木块，目标是从一个初始状态，重新排列到目标配置。

木块用不同的颜色标识，一次只能移动一个积木块，且只能移动每一堆中顶部的积木块，被拿起的积木块也只能放在顶部或直接放在桌子上。

变体Mystery Blocksworld则是在Blockworlds的基础上加入混淆机制，用一些毫不相干的词语来代替操作中的动作。

在此基础之上，还有更为复杂的全随机变体，指令进一步从其他英文单词变成了无意义的字符串。

在o1之前，Blockworlds上的SOTA模型是Llama3.1-405B，成绩为达到 62.6%，而在Mystery Blockworlds上，没有任何模型的成绩能超过5%。

o1-preview超强规划

o1这边的测试结果显示，preview相比mini，成绩优势十分明显。

在Blockworlds任务上，preview版准确率达98%，而mini只有56.6%，表现还不如llama。

当然加入了混淆之后，mini相比于llama也显示出了一些优势——

在零样本配置下，preview版的准确率超过了一半，比llama的4.3%高出了11倍多；mini版也达到了19.1%，比llama高3.4倍。

最后在全随机版本下，o1-preview还能拥有37.3%的准确率。

以上结果显示出了o1系列模型，特别是o1-preview的超强规划能力，但是不足之处也十分明显。

一是随着规划长度的增加，模型的性能也会迅速下降，即使对于未混淆的Blockworlds来说也同样如此。

另外，Blockworlds系列问题并非全部可解，作者发现o1在识别不可解问题上的准确率依然存在不足。

对于未混淆版本准确率只有27%，但没有误判为不可解的情况；对于全随机版本则只有16%，另外还有11.5%的概率将可解问题误判为不可解。

甚至作者还发现，o1有时也会狡辩，提出令人信服的合理理由，让人们相信其错误答案。

在模型本身的性能之外，成本和时间消耗也是一个重要考量，相比于传统大模型，o1-mini的成本相比GPT4-Turbo直接翻番，preview更是高出了数量级。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-28

金融大模型推理能力瓶颈如何突破？通义点金提出 DianJin-R1 框架，点石成金！

2025-04-28

深入解读MCP协议最新版本的4大升级【上】：传输机制与安全授权

2025-04-28

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

拨开MCP的迷雾，聊聊LLM工具调用的本质（一）：Function Calling

2025-04-28

推荐支持MCP的六大AI框架

2025-04-27

一文了解Text Embedding模型：从text2vec、openai-text embedding到m3e、bge（上）

2025-04-27

RollingAI创始人刘开出席2025年中国绿公司年会，解读AI商业化落地新思维

2025-04-27

一文讲透 MCP 与 Function calling，你想看的都在这里

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

一文了解：大模型 Agent 开发框架有哪些？它们的区别是什么？

2025-04-27

为什么一定要做Agent智能体？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB