我要投稿

重温 Scaling Law，思考对大模型的未来发展启示

发布日期：2024-11-05 18:09:32 浏览次数： 2994

作者：为AI发电

微信搜一搜，关注“为AI发电”

今天来重温一下 Scaling Law。

Scaling Law 描述了模型性能随着模型参数、数据量和计算资源增加而提升的幂律关系，但这种提升并非线性，而是呈现出收益递减现象。换言之，随着资源增加，性能提升的速度逐渐减缓。这一递减效应表明，在模型规模较小时，增加资源能带来显著性能提升；但在模型规模较大时，资源的增加对性能提升的影响变得有限。因此：Scaling Law 的核心在于揭示资源投入与性能提升之间的平衡关系，而不是单纯的“大力出奇迹”。它为研究人员提供了一种合理分配资源的理论框架，尤其在数据和算力有限的条件下，帮助更有效地实现性能优化。

关于 Scaling Law 的研究有两篇核心的paper，第一篇是 OpenAI 团队 2020 年发表的「Scaling Laws for Neural Language Models」，我们把这个Scaling Law 简称为「KM Scaling Law」（KM出自前两个作者的姓氏首字母），KM Scaling Law 说明了模型参数、数据量和算力的幂律关系。

另外一篇工作来自DeepMind 的团队 2022 年发表的「Training Compute-Optimal Large Language Models」，这里简称「Chinchilla Scaling Law」，这篇工作提出了更均衡的资源分配方法，进一步优化了模型训练的效率。这两篇工作奠定了 Scaling Law 的理论框架，为如何利用有限资源训练出高性能模型，提供了宝贵的理论基础。

1、KM Scaling Law（2020年，OpenAI ）

公式和核心理念

由 Kaplan 等人提出的 KM Scaling Law 基于一个假设，即随着模型规模（参数量）、数据量和计算资源的增加，语言模型的性能呈现出幂律关系的改善趋势。
KM Scaling Law 通过三个关键变量来表示交叉熵损失的变化：1）模型规模：参数数量N；2）数据集规模：文本数据中的 token 数量D；3）算力：训练所需的总计算量C。
该定律的基本公式为：

其中，系数基于实验得出：模型规模系数（0.076）：表示随着参数量增加损失减少的速率；数据量系数（0.095）：表示增加数据量对损失减少的影响；计算量系数（0.050）：表示增加计算量对损失减少的影响。常数N、D、D代表在不同规模条件下实现性能显著提升的阈值。

‍

实际意义‍‍

设计更大模型的指导方针：KM Scaling Law 揭示了参数量、数据量和算力与模型性能之间的幂律关系，提供了一种量化方法来理解不同资源对模型性能的影响。它为研究人员在扩展大模型时提供了理论依据，使得设计和规划大模型（如 GPT-3）时，能基于这些关系有效地预测和优化性能。
GPT 系列的迭代：以 KM Scaling Law 为指导，GPT-3 选择了超大参数模型 - 175B，GPT-3在实际应用中显著提升了自然语言生成的效果。KM Scaling Law 在 GPT-3 的设计中直接发挥了作用，成为其背后逻辑之一。
‍

均衡扩展：在 KM Scaling Law 的启发下，有一种经验法则认为，当算力增加 10 倍时，模型规模可以提升 5 倍，而训练数据量可以增加 1.8 倍。然而，这仅为一种通用的经验指导，KM Scaling Law 本身并未提供具体的资源分配建议（given a 10× increase computational budget, they suggests that the size of the model should increase 5.5× while the number of training tokens should only increase 1.8×. Instead, we find that model size and the number of training tokens should be scaled in equal proportions.）
‍‍

2、Chinchilla Scaling Law（2022年，DeepMind）

公式和核心理念

Chinchilla Scaling Law 出自paper：「Training Compute-Optimal Large Language Models」，是基于 KM Scaling Law 的发现，但提出了不同的策略，主张在有限的计算预算下均衡增加模型规模和数据量。
Chinchilla Scaling Law 提出的损失函数公式如下：

其中，E、A、B 为常数，α = 0.34、β = 0.28，分别表示模型规模和数据量对损失的影响。

最优计算资源分配：

Chinchilla Scaling Law 提出了一种在给定计算预算下实现最佳性能的分配方案。该理论指出，算力C应与模型参数数量N和数据规模D之间满足一个近似的比例关系：C ≈ 6ND。这里的“6”仅为用于平衡预算与资源比例的常数，以此关系实现更高的计算效率。具体来说，在此约束下，当计算预算C增加时，模型的最优参数量 Nopt(C) 和最优数据量Dopt(C) 可以按照以下公式计算：

Chinchilla Scaling Law的影响：

数据有效的模型开发：Chinchilla Scaling Law 为如何在有限的算力和数据资源下实现最佳性能提供了重要指导。通过均衡增加模型参数和数据量，DeepMind 能够开发出计算最优的模型（例如具有 70B的 Chinchilla），这些模型在性能上超越了仅依靠更大参数量的模型。这一均衡策略表明，合理分配资源而不是盲目增加参数量，可以更高效地提升模型的整体性能。
应对数据稀缺问题：随着高质量训练数据日益稀缺，Chinchilla Scaling Law 强调数据和模型规模的同步增长，使得在数据受限的情况下，也能实现最佳性能。相比于 KM Scaling Law 单方面优先增加参数量的策略，Chinchilla 更关注对数据的有效利用，为最大化现有数据资源的价值提供了理论依据。在数据稀缺的环境中，这一策略可以显著提高计算资源的使用效率。
性能预测和计算资源管理：Chinchilla Scaling Law 提供了小规模模型预测大规模模型表现的方法，使研究人员在资源受限的情况下更科学地分配预算，评估模型在特定预算和数据条件下的预期性能。
高效的训练优化：Chinchilla Scaling Law 的均衡扩展策略可以有效减少训练中的资源浪费。通过在参数和数据量之间找到最佳平衡点，研究人员可以减少模型训练中的损失异常，降低性能提升的递减效应。这一法则在训练过程中的应用，有助于提高模型开发的成本效益，并确保资源分配始终集中在最佳效率点上。

Scaling Law 在大模型训练中的影响与未来启示

上回在「技术范式更迭在即：大力难出奇迹，RL成为下一个希望」中提到，GPT-5训练遇到瓶颈，Scaling Law 的适用性和未来潜力引发了广泛讨论。虽然 Scaling Law 曾被视为推动大模型快速发展的核心驱动力，但在当前的数据和计算资源限制下，其有效性正受到挑战。

在 GPT-5 等大模型面临的资源瓶颈和训练难题下，Scaling Law 提供了以下几点关键启示：

预算合理分配：KM 和 Chinchilla Scaling Law 提供的性能预测和收益递减原则，可以帮助研究人员更科学地分配计算预算，避免不必要的资源浪费。随着 Scaling Law 所揭示的规律愈发重要，研究人员应通过小规模模型预测来优化预算分配。
均衡策略优先：Chinchilla Scaling Law 提倡的均衡增长策略，为未来的大模型开发提供了高效的路径。相比于单纯增加模型参数，合理的参数和数据比例有助于最大化计算资源的利用率。对于数据和预算受限的环境，Chinchilla Scaling Law 提供了在不大幅增加资源投入的情况下，提升模型性能的有效途径。
探索新训练方法与架构：随着传统静态数据的消耗殆尽，未来可以考虑通过实时数据采集让模型获得更具适应性的训练数据，或引入自我监督、自我进化机制，使模型在训练过程中能自行优化。多模态学习（如结合视觉和文本数据）也将成为重要发展方向，有助于提升模型在复杂任务中的表现。
资源与能力的最佳平衡：Scaling Law 帮助研究人员在模型规模、计算预算和数据量之间找到最佳平衡点，使得即便在资源有限的情况下，也能实现合理的性能提升，而不是一味依赖增加算力。未来的发展可能需要更加注重在不同任务、场景下的适配性，确保模型的性能与资源投入之间达到最优平衡。

‍

综上所述，尽管当前资源和数据的限制对 Scaling Law 的适用性提出了挑战，但其对模型性能提升与资源分配的幂律指导仍具深远意义。未来，Scaling Law 可与自我进化、多模态数据结合应用，为模型开发提供更具弹性的策略，以适应资源有限的环境，并在合理预算下最大化性能提升。