微信扫码
与创始人交个朋友
我要投稿
今天来重温一下 Scaling Law。
Scaling Law 描述了模型性能随着模型参数、数据量和计算资源增加而提升的幂律关系,但这种提升并非线性,而是呈现出收益递减现象。换言之,随着资源增加,性能提升的速度逐渐减缓。这一递减效应表明,在模型规模较小时,增加资源能带来显著性能提升;但在模型规模较大时,资源的增加对性能提升的影响变得有限。因此:Scaling Law 的核心在于揭示资源投入与性能提升之间的平衡关系,而不是单纯的“大力出奇迹”。它为研究人员提供了一种合理分配资源的理论框架,尤其在数据和算力有限的条件下,帮助更有效地实现性能优化。
关于 Scaling Law 的研究有两篇核心的paper,第一篇是 OpenAI 团队 2020 年发表的「Scaling Laws for Neural Language Models」,我们把这个Scaling Law 简称为「KM Scaling Law」(KM出自前两个作者的姓氏首字母),KM Scaling Law 说明了模型参数、数据量和算力的幂律关系。
另外一篇工作来自DeepMind 的团队 2022 年发表的「Training Compute-Optimal Large Language Models」,这里简称 「Chinchilla Scaling Law」,这篇工作提出了更均衡的资源分配方法,进一步优化了模型训练的效率。这两篇工作奠定了 Scaling Law 的理论框架,为如何利用有限资源训练出高性能模型,提供了宝贵的理论基础。
1、KM Scaling Law(2020年,OpenAI )
公式和核心理念
由 Kaplan 等人提出的 KM Scaling Law 基于一个假设,即随着模型规模(参数量)、数据量和计算资源的增加,语言模型的性能呈现出幂律关系的改善趋势。
KM Scaling Law 通过三个关键变量来表示交叉熵损失的变化:1)模型规模:参数数量N;2)数据集规模:文本数据中的 token 数量D;3)算力:训练所需的总计算量C。
该定律的基本公式为:
其中, 系数基于实验得出:模型规模系数(0.076):表示随着参数量增加损失减少的速率;数据量系数(0.095):表示增加数据量对损失减少的影响;计算量系数(0.050):表示增加计算量对损失减少的影响。常数N、D、D代表在不同规模条件下实现性能显著提升的阈值。
设计更大模型的指导方针:KM Scaling Law 揭示了参数量、数据量和算力与模型性能之间的幂律关系,提供了一种量化方法来理解不同资源对模型性能的影响。它为研究人员在扩展大模型时提供了理论依据,使得设计和规划大模型(如 GPT-3)时,能基于这些关系有效地预测和优化性能。
GPT 系列的迭代:以 KM Scaling Law 为指导,GPT-3 选择了超大参数模型 - 175B,GPT-3在实际应用中显著提升了自然语言生成的效果。KM Scaling Law 在 GPT-3 的设计中直接发挥了作用,成为其背后逻辑之一。
均衡扩展:在 KM Scaling Law 的启发下,有一种经验法则认为,当算力增加 10 倍时,模型规模可以提升 5 倍,而训练数据量可以增加 1.8 倍。然而,这仅为一种通用的经验指导,KM Scaling Law 本身并未提供具体的资源分配建议(given a 10× increase computational budget, they suggests that the size of the model should increase 5.5× while the number of training tokens should only increase 1.8×. Instead, we find that model size and the number of training tokens should be scaled in equal proportions.)
2、Chinchilla Scaling Law(2022年,DeepMind)
公式和核心理念
Chinchilla Scaling Law 出自paper:「Training Compute-Optimal Large Language Models」,是基于 KM Scaling Law 的发现,但提出了不同的策略,主张在有限的计算预算下均衡增加模型规模和数据量。
Chinchilla Scaling Law 提出的损失函数公式如下:
其中,E、A、B 为常数,α = 0.34、β = 0.28,分别表示模型规模和数据量对损失的影响。
最优计算资源分配:
Chinchilla Scaling Law 提出了一种在给定计算预算下实现最佳性能的分配方案。该理论指出,算力C应与模型参数数量N和数据规模D之间满足一个近似的比例关系:C ≈ 6ND。这里的“6”仅为用于平衡预算与资源比例的常数,以此关系实现更高的计算效率。具体来说,在此约束下,当计算预算C增加时,模型的最优参数量 Nopt(C) 和最优数据量Dopt(C) 可以按照以下公式计算:
Chinchilla Scaling Law的影响:
数据有效的模型开发:Chinchilla Scaling Law 为如何在有限的算力和数据资源下实现最佳性能提供了重要指导。通过均衡增加模型参数和数据量,DeepMind 能够开发出计算最优的模型(例如具有 70B的 Chinchilla),这些模型在性能上超越了仅依靠更大参数量的模型。这一均衡策略表明,合理分配资源而不是盲目增加参数量,可以更高效地提升模型的整体性能。
应对数据稀缺问题:随着高质量训练数据日益稀缺,Chinchilla Scaling Law 强调数据和模型规模的同步增长,使得在数据受限的情况下,也能实现最佳性能。相比于 KM Scaling Law 单方面优先增加参数量的策略,Chinchilla 更关注对数据的有效利用,为最大化现有数据资源的价值提供了理论依据。在数据稀缺的环境中,这一策略可以显著提高计算资源的使用效率。
性能预测和计算资源管理:Chinchilla Scaling Law 提供了小规模模型预测大规模模型表现的方法,使研究人员在资源受限的情况下更科学地分配预算,评估模型在特定预算和数据条件下的预期性能。
高效的训练优化:Chinchilla Scaling Law 的均衡扩展策略可以有效减少训练中的资源浪费。通过在参数和数据量之间找到最佳平衡点,研究人员可以减少模型训练中的损失异常,降低性能提升的递减效应。这一法则在训练过程中的应用,有助于提高模型开发的成本效益,并确保资源分配始终集中在最佳效率点上。
Scaling Law 在大模型训练中的影响与未来启示
上回在「技术范式更迭在即:大力难出奇迹,RL成为下一个希望」中提到,GPT-5训练遇到瓶颈,Scaling Law 的适用性和未来潜力引发了广泛讨论。虽然 Scaling Law 曾被视为推动大模型快速发展的核心驱动力,但在当前的数据和计算资源限制下,其有效性正受到挑战。
在 GPT-5 等大模型面临的资源瓶颈和训练难题下,Scaling Law 提供了以下几点关键启示:
预算合理分配:KM 和 Chinchilla Scaling Law 提供的性能预测和收益递减原则,可以帮助研究人员更科学地分配计算预算,避免不必要的资源浪费。随着 Scaling Law 所揭示的规律愈发重要,研究人员应通过小规模模型预测来优化预算分配。
均衡策略优先:Chinchilla Scaling Law 提倡的均衡增长策略,为未来的大模型开发提供了高效的路径。相比于单纯增加模型参数,合理的参数和数据比例有助于最大化计算资源的利用率。对于数据和预算受限的环境,Chinchilla Scaling Law 提供了在不大幅增加资源投入的情况下,提升模型性能的有效途径。
探索新训练方法与架构:随着传统静态数据的消耗殆尽,未来可以考虑通过实时数据采集让模型获得更具适应性的训练数据,或引入自我监督、自我进化机制,使模型在训练过程中能自行优化。多模态学习(如结合视觉和文本数据)也将成为重要发展方向,有助于提升模型在复杂任务中的表现。
资源与能力的最佳平衡:Scaling Law 帮助研究人员在模型规模、计算预算和数据量之间找到最佳平衡点,使得即便在资源有限的情况下,也能实现合理的性能提升,而不是一味依赖增加算力。未来的发展可能需要更加注重在不同任务、场景下的适配性,确保模型的性能与资源投入之间达到最优平衡。
综上所述,尽管当前资源和数据的限制对 Scaling Law 的适用性提出了挑战,但其对模型性能提升与资源分配的幂律指导仍具深远意义。未来,Scaling Law 可与自我进化、多模态数据结合应用,为模型开发提供更具弹性的策略,以适应资源有限的环境,并在合理预算下最大化性能提升。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-05
比ChatGPT更牛!苹果新AI模型刷新交互体验!能看懂你的手机屏幕!平板和安卓机也都行
2024-11-05
B站自研角色扮演模型背后的技术
2024-11-05
对抗NVLink简史?10万卡争端,英伟达NVL72超节点挑起
2024-11-05
为了在AI时代做好“个人助理”,vivo做了哪些努力?
2024-11-05
大模型在自动化测试的突破:蚂蚁、华为等头部企业应用实践
2024-11-05
微软 AI CEO 穆斯塔法:小模型绝对是未来趋势,AI 会小到能装在冰箱贴上
2024-11-05
Diffusion 模型也能“举一反三”?阿里IC-LoRA给图像生成模型增加情节记忆力能力
2024-11-05
Meta揭秘:大规模AI集群可靠性的突破性研究(中)
2024-05-28
2024-04-26
2024-04-11
2024-08-21
2024-07-09
2024-07-18
2024-08-13
2024-06-17
2024-06-07
2024-07-01
2024-11-05
2024-11-04
2024-11-01
2024-10-31
2024-10-30
2024-10-29
2024-10-29
2024-10-25