我要投稿

解密o1模型：50美元重现百万美元级实验

发布日期：2024-09-24 21:20:03 浏览次数： 2027

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

o1模型发布后，有人花50美元重现了可能价值百万美元的实验结果。

o1 性能曲线的神秘X轴

OpenAI最近发布了o1模型家族，并公布了一张展示测试时计算量缩放规律的图表。这张图表引发了研究人员的极大兴趣，因为它揭示了模型性能如何随测试时计算量的增加而提升。

然而，不知是有意还是刻意还是无意，OpenAI并没有标注x轴！

这留下了一个巨大的悬念。

就像给了大家一张藏宝图，却不告诉你起点在哪里。

50美元的复刻之旅

此时，主打一个不服 Hugh Zhang 跳了出来，他决定接受这个挑战！

并且他最终只用了公开的o1-mini API，就尝试重现出了这个图表。

左边是OpenAI的原图，右边是Hugh的复刻版。

算得上惊人的相似，对吧？

但是，怎么做到的呢？这就要说到token控制的艺术了。

token控制：让AI"按量思考"

Hugh发现，o1-mini API并不允许直接控制测试时使用的token数量。但他想出了一个巧妙的方法：告诉模型你希望它思考多长时间。

这张图展示了请求的token数量与实际使用的token数量之间的关系。有趣的是，在2^4到2^11的范围内，模型似乎能较好地"听话"。

而其他的请求token 数量下，o1 就不搭理他了。

但是，Hugh还发现了一个有趣的现象：

在这个范围内，o1-mini实际使用的token数量总是比请求的多约8倍！这就像你点了一份饭，餐厅总是给你上8份。

可能是新融资让OpenAI 太有钱了吧！

突破限制：自一致性方法来救场

但是，仅靠这种方法，Hugh最多只能让模型使用到2^14（约16K）个token。为了进一步扩展，他借鉴了自一致性论文中的方法：多次采样，然后进行多数投票。

这个方法确实带来了一些初步的收益，但很快就遇到了瓶颈。

廉价重现昂贵实验

在这个过程中，Hugh发现了一件令人兴奋的事：重现这个图表的成本出奇地低。

对于最大规模的推理运行，每个问题使用2^17个token，乘以30个2024年AIME问题，总共约400万个token。按照每100万输出token 12美元的价格，最大规模的运行只花费了约50美元！

就这样，原本可能需要耗费数百万美元的实验，现在只需要50美元就能重现关键结果。

实验的局限

然而，Hugh的实验也揭示了一些局限性：

如图所示，自一致性方法似乎在达到约70%的准确率后就停止了增长，这与OpenAI原图的结果非常接近。

这个结果与过去的研究一致，表明多数投票法在某个点会达到饱和。这意味着，如果我们想要进一步提升模型性能，可能需要探索其他方法。

Hugh推测，强制模型在token空间中思考更长时间可能比重复采样和多数投票更有效。

考虑到重现实验的低成本，这可能是一个值得进一步探索的方向。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-01

spaCy中文分句模型微调秘籍，从数据准备到模型评测，一学就会！

2025-06-26

深入理解大模型微调，LoRA超参数指南

2025-06-21

【大模型微调】5.调参经验总结与显存占用因素探究

2025-06-20

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-17

手把手教你用LLaMA-Factory微调Qwen3大模型

2025-06-17

万不得已，不要对 LLM 进行微调？

2025-06-15

AI 彻底摆脱人类！Anthropic让模型自己微调自己，左脚踩右脚要上天……

2025-06-14

大模型微调(Fine-tuning)

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Qwen3小模型实测：从4B到30B，到底哪个能用MCP和Obsidian顺畅对话？

2025-04-30

LoRA 与QLoRA区别

2025-04-19

AI王炸：MCP服务端客户端的完整实现

2025-04-16

2025 AI驱动研发工具对比丨独立测评

2025-04-16

MCP vs Function Calling，该如何选？

2025-04-20

DeepSeek V3 0526更新？实测代码能力已经提升，附实测案例。

2025-05-26

国内企业应用AI大模型赋能软件测试的落地实践案例

2025-04-20

低延迟小智AI服务端搭建-ASR篇（续）：CPU可跑

2025-04-19

Gemini 2.5 Pro与Claude 3.7 Sonnet编程性能对比

2025-04-06

Ollama环境变量配置全攻略：从基础设置到场景化调优

2025-05-07

大家都在问

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

软件公司如何为AI的下半场做准备？

2025-05-10

LoRA为何成为大模型微调不可或缺的核心技术？

2025-05-07

为什么AI多轮对话总是那么傻？

2025-05-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB