微信扫码
与创始人交个朋友
我要投稿
“我们从刚刚过去这一年对大模型尤其语言大模型来看,训练的效果普遍不太好或者说能力的提升普遍不及预期。”在日前举办的第十九届中国IDC产业年度大典上,中国通信院云计算与大数据研究所所长何宝宏认为大语言模型的竞赛上半场进入“垃圾时间”。
面对OpenAI迭代周期延长、Gemini 2.0仓促发布等行业现象,他直指当下大语言模型的核心困境——Scaling law开始步入减速区间。从数据墙的出现到"死亡互联网理论"的挑战,从Agent的战略定位到智算基础设施的重构等,何宝宏对大模型的“上半场”和“下半场”进行了深入分享。
01
上半场进入“垃圾时间”,大模型的发展已经进入“下半场”
在分析当前大模型发展现状时,何宝宏指出,大语言模型的竞赛上半场进入“垃圾时间”。例如,Open AI的产品迭代速度在明显放缓,过去24个月迭代一次,现在已经到33个月了,而且效果还不及预期,谷歌的Gemini2.0仓促推出。
何宝宏指出,大模型的发展已经进入了“下半场”。他强调:“从刚刚过去的一年来看,大模型的训练效果普遍不及预期。重要原因之一是大模型的Scaling Law正在面临减速乃至失效的局面”。关于Scaling law,何宝宏强调这并非大模型独有现象,Scaling law不是仅仅在我们大模型领域,它是一个广泛的存在于现实世界的物理世界生命体、城市、公司,甚至在计算机。
他指出,所有的Scaling law随着时间的推移都会失效,不可能一直指数级增长,在大模型中,我们只是在重现这一现象。如果Scaling Law短期内失效,例如在0到3年内,通往AGI的道路可能会更加漫长。
在Scaling Law减速的背景下,各大机构纷纷调整策略,转向其他领域,一个方向是从训练转向推理,另一个方向是从大语言模型转向多模态其他模型。
关于从训练转向推理,何宝宏指出,今天大语言模型是基于人工智能两大分支之一的连接主义,就是数据,靠经验的,转向推理就是转向人工智能另外一条赛道,符号主义,基于数据主义又走向了符号主义,但是本质上来说它俩似乎是统一的,因为符号主义强调的是符号结构化逻辑,连接主义强调的是数据训练结果。
关于从大语言模型转向多模态其他模型,何宝宏指出,一是做应用,第二做视觉,做分布式大模型。不过,这条路还是崎岖拐弯的,还有很多事情需要我们做优化做改进。
2024年大模型赛道越来越卷,今年开源的进展也非常显著,开源模型的能力差相当于GPT3.5的80%,但成本却只有1/20。何宝宏指出,如果往前卷不动了,就卷工程化,“当前的大模型仍然像是一种工艺品,需要更多的工程化努力。” 他指出,未来的大模型需要更好的可解释性、更高的透明度、更强的长期推理能力以及更高的安全性和可靠性。他提到,从工艺到工程化的过程,需要在模型的压缩、轻量化以及组件化方面实现突破。
关于大模型的竞争方向,何宝宏指出:“从以往的拼性能逐渐转向拼性价比, 过去疯狂追求模型的性能和规模,但如今,如何以更低的成本实现更多的商业价值,成为关键问题”。何宝宏还探讨了人工智能“幻觉”现象。他指出:“幻觉并非完全负面,它是创意和创新的基础。” 他认为,在文学、艺术和科技领域,人工智能的“幻觉”可能带来更多的创意。
02
大模型撞上数据墙
2024年年底业内热议大模型撞上了数据墙,OpenAI 前首席科学家 Ilya预言“预训练时代将终结”。何宝宏直言,预训练的结束和转型方向跟自己是一致的观点。
在“大模型撞墙”的争论中,一些人认为预训练没结束,数据没有耗光,未来还可以使用视频数据以及人工智能合成数据,甚至是使用私域数据。何宝宏坦言,不赞成这种观点。他进一步指出,视频的数据如何拿来做训练,目前还没有方法。私域数据再大也是小数据,相对互联网的数据来说,私域数据只能做微调,只能在本地练。
至于合成数据,何宝宏直言:“互联网过去30多年积累的数据将在未来三到五年内耗尽。我们现在使用人工智能生成的数据进行训练,但这可能导致模型崩溃。” 他指出:“如果用1%的AI生成数据进行训练,模型经过五次迭代后就会崩溃。”此外,何宝宏还提到了一个新的理论:“互联网正在面临死亡威胁”,因为AI生成的数据正以惊人的速度增长,而人类生产的高质量数据则在快速减少。
03
下半场,以Agent为代表
展望未来,何宝宏认为,2025年Agent将成为焦点。他指出:“大模型的‘七年之痒’正在出现。下一步,我们需要从大模型转向Agent,而Agent是目标导向的,这与大模型的知识压缩属性形成对比。”
由于Agent是目标导向的,因此存在潜在挑战。Agent的思维方式、运作形式跟人类传统的智能思维放不太一样。“如何确保智能体的终极目标与人类的目标保持一致?如何监测和纠偏?”这些问题都需要深入研究。
下半场算力方面,何宝宏提出,下半场不能只追求高端算力,边缘算力、混合算力会越来越多。他还提到,AIDC生态会重构。“整个生态从上到下都在发生变化,从Agent到大模型,再到智算中心的基础设施,都在被重构,已经是技术密集型、资金密集型、能耗密集型、人才密集型。”
最后,何宝宏总结道:“从缺算到缺电,从液冷到智力基础设施,我们需要面向未来的长期规划。这不仅关乎技术创新,也关乎全球资源的合理利用”。如果按照当前趋势发展,到2030年,全球20%的电力可能会被人工智能数据中心消耗。下一步需要智力在线,今天的算力基础设施或者算力整体来看距离形成一个规模性的智算基础设施还有很长的路要走。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-08-13
2024-04-26
2024-08-21
2024-06-13
2024-08-04
2024-07-09
2024-09-23
2024-04-11
2024-07-18