AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Scaling Law提出者Ilya发声:大模型预训练效果趋于平缓,扩展正确的东西变得更重要
发布日期:2024-11-12 08:27:56 浏览次数: 1624 来源:智能超参数


北京时间11月12日,在使用预训练提升大模型性能遭遇瓶颈之时,作为Scaling Law提出者的OpenAI联合创始人之一的Ilya Sutskever最新发声:“2010年代是扩展的时代,现在我们再次回到了探索和发现的时代。每个人都在寻找下一个突破。扩展正确的东西比以往任何时候都更重要。"


近来,像OpenAI这样的人工智能公司正在寻求开发更类似人类思维方式的训练技术,以克服在追求更大规模语言模型过程中遇到的意外延迟和挑战。


十几位AI科学家、研究人员和投资者表示,他们认为这些技术(这些技术支持着OpenAI最近发布的o1模型)可能会重塑AI军备竞赛,并影响AI公司对能源和芯片等资源的巨大需求。


在两年前ChatGPT聊天机器人发布之后,那些在AI热潮中估值大涨的科技公司一直公开坚持认为,通过增加数据和算力来"扩大规模"的现有模型将持续带来AI模型的改进。但现在,一些最著名的AI科学家开始直言这种"越大越好"理念的局限性。


AI实验室Safe Superintelligence (SSI)和OpenAI的联合创始人Ilya Sutskever最近向路透社表示,预训练阶段的扩展效果已经趋于平缓。预训练是指使用大量未标记数据来理解语言模式和结构的AI模型训练阶段。


Sutskever被广泛认为是通过在预训练中使用更多数据和计算力来实现生成式AI重大突破的早期倡导者,这最终催生了ChatGPT。Sutskever今年早些时候离开OpenAI创立了SSI。


"2010年代是扩展的时代,现在我们再次回到了探索和发现的时代。每个人都在寻找下一个突破,"Sutskever说。"扩展正确的东西比以往任何时候都更重要。"


除了表示SSI正在研究一种替代预训练扩展的方法外,Sutskever拒绝透露更多细节。


据三位熟悉内情的消息人士透露,在开发超越OpenAI已有近两年历史的GPT-4模型的竞赛中,各大AI实验室的研究人员一直在遭遇延迟和令人失望的结果。


大型模型的"训练运行"需要同时运行数百个芯片,可能耗资数千万美元。鉴于系统的复杂性,更容易出现硬件故障;研究人员可能要等到训练结束(可能需要数月时间)才能知道模型的最终性能。


另一个问题是大语言模型消耗大量数据,而AI模型已经耗尽了世界上所有容易获取的数据。电力短缺也阻碍了训练运行,因为这个过程需要大量能源。


为克服这些挑战,研究人员正在探索“推理时计算(test-time compute)”技术,这种技术在所谓的"推理"阶段(即模型使用阶段)增强现有AI模型。例如,模型不是立即选择单一答案,而是实时生成和评估多个可能性,最终选择最佳路径。


这种方法允许模型将更多处理能力用于具有挑战性的任务,如数学或编程问题,或需要类人推理和决策的复杂运算。


"事实证明,让机器人在一手扑克牌中思考20秒,获得的性能提升相当于将模型规模扩大10万倍并训练10万倍更长时间,"上个月在旧金山TED AI会议上,参与o1开发的OpenAI研究员Noam Brown说。


OpenAI在其最近发布的名为"o1"的模型中采用了这种技术。o1模型可以以多步骤方式"思考"问题,类似于人类推理。它还涉及使用来自行业专家的数据和反馈。o1系列的秘诀是在GPT-4等"基础"模型之上进行的另一组训练,该公司表示计划将这种技术应用于更多更大的基础模型。


同时,据五位熟悉情况的人士透露,Anthropic、xAI和Google DeepMind等其他顶级AI实验室的研究人员也一直在开发自己版本的技术。


"我们看到很多可以快速采摘的低垂果实,可以让这些模型变得更好,"OpenAI首席产品官Kevin Weil在10月的一次科技会议上说。"当人们赶上来的时候,我们会尝试再前进三步。"


近日科技媒体The Information报道,OpenAI的下一代旗舰模型可能不会像前面几代产品那样带来巨大的飞跃。新的模型或许无法像之前的模型那样耀眼。


据报道,测试代号为Orion的新模型的员工发现,尽管新模型性能超过了OpenAI现有的模型,但进步程度并不如从GPT-3到GPT-4的进步那么大。


硅谷知名VC机构a16z联合创始人Ben Horowitz日前表示,比较GPT2.0到GPT-4的发展历程,GPU在以同样的速度增加,但最终发现“我们在提高智能方面的速度明显减慢了”。这背后可能跟人类知识已经被LLM耗尽有很大关系。


a16z另外一位联合创始人Marc Andreessen指出,两年前,只有一个领先的LLM(大型语言模型),那就是OpenAI的模型。而今天,我们看到大约有六个模型的能力接近这个水平,并且都在某种程度上趋于相同的能力上限。


“当然,业界有许多聪明的人在努力突破这些上限,但以目前的情况来看,如果仅从数据图表来看,我们会认为当前AI的性能正在趋向于达到一个局部的顶点。”Marc Andreessen 说。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询