我要投稿

Scaling Law提出者Ilya发声：大模型预训练效果趋于平缓，扩展正确的东西变得更重要

发布日期：2024-11-12 08:27:56 浏览次数： 2069

作者：智能超参数

微信搜一搜，关注“智能超参数”

北京时间11月12日，在使用预训练提升大模型性能遭遇瓶颈之时，作为Scaling Law提出者的OpenAI联合创始人之一的Ilya Sutskever最新发声：“2010年代是扩展的时代，现在我们再次回到了探索和发现的时代。每个人都在寻找下一个突破。扩展正确的东西比以往任何时候都更重要。"

近来，像OpenAI这样的人工智能公司正在寻求开发更类似人类思维方式的训练技术，以克服在追求更大规模语言模型过程中遇到的意外延迟和挑战。

十几位AI科学家、研究人员和投资者表示，他们认为这些技术(这些技术支持着OpenAI最近发布的o1模型)可能会重塑AI军备竞赛，并影响AI公司对能源和芯片等资源的巨大需求。

在两年前ChatGPT聊天机器人发布之后，那些在AI热潮中估值大涨的科技公司一直公开坚持认为，通过增加数据和算力来"扩大规模"的现有模型将持续带来AI模型的改进。但现在，一些最著名的AI科学家开始直言这种"越大越好"理念的局限性。

AI实验室Safe Superintelligence (SSI)和OpenAI的联合创始人Ilya Sutskever最近向路透社表示，预训练阶段的扩展效果已经趋于平缓。预训练是指使用大量未标记数据来理解语言模式和结构的AI模型训练阶段。

Sutskever被广泛认为是通过在预训练中使用更多数据和计算力来实现生成式AI重大突破的早期倡导者，这最终催生了ChatGPT。Sutskever今年早些时候离开OpenAI创立了SSI。

"2010年代是扩展的时代，现在我们再次回到了探索和发现的时代。每个人都在寻找下一个突破，"Sutskever说。"扩展正确的东西比以往任何时候都更重要。"

除了表示SSI正在研究一种替代预训练扩展的方法外，Sutskever拒绝透露更多细节。

据三位熟悉内情的消息人士透露，在开发超越OpenAI已有近两年历史的GPT-4模型的竞赛中，各大AI实验室的研究人员一直在遭遇延迟和令人失望的结果。

大型模型的"训练运行"需要同时运行数百个芯片，可能耗资数千万美元。鉴于系统的复杂性，更容易出现硬件故障；研究人员可能要等到训练结束（可能需要数月时间）才能知道模型的最终性能。

另一个问题是大语言模型消耗大量数据，而AI模型已经耗尽了世界上所有容易获取的数据。电力短缺也阻碍了训练运行，因为这个过程需要大量能源。

为克服这些挑战，研究人员正在探索“推理时计算（test-time compute）”技术，这种技术在所谓的"推理"阶段（即模型使用阶段）增强现有AI模型。例如，模型不是立即选择单一答案，而是实时生成和评估多个可能性，最终选择最佳路径。

这种方法允许模型将更多处理能力用于具有挑战性的任务，如数学或编程问题，或需要类人推理和决策的复杂运算。

"事实证明，让机器人在一手扑克牌中思考20秒，获得的性能提升相当于将模型规模扩大10万倍并训练10万倍更长时间，"上个月在旧金山TED AI会议上，参与o1开发的OpenAI研究员Noam Brown说。

OpenAI在其最近发布的名为"o1"的模型中采用了这种技术。o1模型可以以多步骤方式"思考"问题，类似于人类推理。它还涉及使用来自行业专家的数据和反馈。o1系列的秘诀是在GPT-4等"基础"模型之上进行的另一组训练，该公司表示计划将这种技术应用于更多更大的基础模型。

同时，据五位熟悉情况的人士透露，Anthropic、xAI和Google DeepMind等其他顶级AI实验室的研究人员也一直在开发自己版本的技术。

"我们看到很多可以快速采摘的低垂果实，可以让这些模型变得更好，"OpenAI首席产品官Kevin Weil在10月的一次科技会议上说。"当人们赶上来的时候，我们会尝试再前进三步。"

近日科技媒体The Information报道，OpenAI的下一代旗舰模型可能不会像前面几代产品那样带来巨大的飞跃。新的模型或许无法像之前的模型那样耀眼。

据报道，测试代号为Orion的新模型的员工发现，尽管新模型性能超过了OpenAI现有的模型，但进步程度并不如从GPT-3到GPT-4的进步那么大。

硅谷知名VC机构a16z联合创始人Ben Horowitz日前表示，比较GPT2.0到GPT-4的发展历程，GPU在以同样的速度增加，但最终发现“我们在提高智能方面的速度明显减慢了”。这背后可能跟人类知识已经被LLM耗尽有很大关系。

a16z另外一位联合创始人Marc Andreessen指出，两年前，只有一个领先的LLM（大型语言模型），那就是OpenAI的模型。而今天，我们看到大约有六个模型的能力接近这个水平，并且都在某种程度上趋于相同的能力上限。

“当然，业界有许多聪明的人在努力突破这些上限，但以目前的情况来看，如果仅从数据图表来看，我们会认为当前AI的性能正在趋向于达到一个局部的顶点。”Marc Andreessen 说。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-01

spaCy中文分句模型微调秘籍，从数据准备到模型评测，一学就会！

2025-06-26

深入理解大模型微调，LoRA超参数指南

2025-06-21

【大模型微调】5.调参经验总结与显存占用因素探究

2025-06-20

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-17

手把手教你用LLaMA-Factory微调Qwen3大模型

2025-06-17

万不得已，不要对 LLM 进行微调？

2025-06-15

AI 彻底摆脱人类！Anthropic让模型自己微调自己，左脚踩右脚要上天……

2025-06-14

大模型微调(Fine-tuning)

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Qwen3小模型实测：从4B到30B，到底哪个能用MCP和Obsidian顺畅对话？

2025-04-30

LoRA 与QLoRA区别

2025-04-19

AI王炸：MCP服务端客户端的完整实现

2025-04-16

2025 AI驱动研发工具对比丨独立测评

2025-04-16

MCP vs Function Calling，该如何选？

2025-04-20

DeepSeek V3 0526更新？实测代码能力已经提升，附实测案例。

2025-05-26

国内企业应用AI大模型赋能软件测试的落地实践案例

2025-04-20

低延迟小智AI服务端搭建-ASR篇（续）：CPU可跑

2025-04-19

Gemini 2.5 Pro与Claude 3.7 Sonnet编程性能对比

2025-04-06

Ollama环境变量配置全攻略：从基础设置到场景化调优

2025-05-07

大家都在问

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

软件公司如何为AI的下半场做准备？

2025-05-10

LoRA为何成为大模型微调不可或缺的核心技术？

2025-05-07

为什么AI多轮对话总是那么傻？

2025-05-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB