我要投稿

以小博大，小模型如何为大模型精选高效训练数据集

发布日期：2024-04-11 07:48:41 浏览次数： 2320

作者：AINLPer

微信搜一搜，关注“AINLPer”

引言

在人工智能领域，语言模型的训练通常需要大量的数据和计算资源，这不仅成本高昂，而且效率低下。本文提出了一种「革命性的数据选择方法」，它不仅能够显著减少训练大型语言模型所需的数据量，同时还能进一步提升模型训练性能。https://arxiv.org/pdf/2402.10430.pdf

背景介绍

指令调整赋予大型语言模型（LLMs）泛化到新任务的能力，并赋予它们遵循指令的特性。这个过程需要使用大量真实或合成指令对语言模型进行微调。由于此类数据集通常非常庞大，包含成千上万的样本，与这种方法相关的训练成本相对较高。过去的研究揭示了深度神经网络的记忆效应，它们倾向于首先记住简单的实例，然后逐渐学习更具挑战性的实例。

此外，研究表明，训练数据中的模糊和困难样本对于模型的泛化是必要的。基于这些观察，研究人员开始关注如何从大量训练数据中选择子集以实现更优的性能。以往的研究包括手动特征工程、训练大型定制模型或使用封闭的大型语言模型（如GPT-3.5）等方法来进行数据的选择。

在本文中，作者深入探讨了从模型的角度衡量样本难度的问题，并受到学习顺序指标的启发，提出了一种「基于样本学习百分比的新型训练数据选择方法」。

新数据选择方法

本文提出的创新性的数据选择策略，旨在为大型语言模型（LLMs）的指令调整训练提供更高效的训练数据。研究的核心是利用学习百分比（Learning Percentage, LP）作为样本难度的指标。

「LP指标」具体来说，LP是一个衡量样本在模型训练过程中学习难度的指标。对于每个样本，LP计算的是该样本在第一个训练epoch结束时困惑度（perplexity）的下降量与整个训练过程中困惑度总下降量的比值。

如果一个样本在训练开始时的困惑度是P0，在第一个epoch结束时的困惑度是P1，那么LP(1)的计算公式为：LP(1) = (P1 - P0) / (P0 - Pn)，其中Pn是训练结束时的困惑度。这一方法允许模型根据早期学习情况自主评估样本难度，并选择那些在训练初期学习较少（即困难）的样本进行训练。

「数据选择」首先，研究者们对整个训练数据集进行LP(1)评分，然后根据这些评分对数据进行排序。然后数据集被划分为三个相等大小的子集，分别代表低、中、高LP(1)值的样本。其中，低LP(1)值的样本被认为是最难学习的，而高LP(1)值的样本则相对容易学习。最后，在这些子集上分别训练模型，并与在完整数据集上训练的模型进行性能比较。这种方法允许模型专注于那些在早期训练中学习效率最低的样本，即最困难的样本。

「数据难度转移性」 在大型语言模型的训练中，通常需要大量的数据来确保模型能够学习到丰富的知识和技能。然而，并非所有数据都同等重要，一些困难或复杂的样本对于模型的泛化能力尤为重要。

本文研究发现，在不同大小的语言模型之间，对于训练数据难度的一致性。这一概念的核心在于，较小的模型在训练过程中识别出的困难样本，对于较大的模型来说同样具有挑战性。这种转移性为训练大型语言模型提供了一种高效的数据选择策略。

如下图展示了使用不同大小的OPT模型（350M, 1.3B, 2.7B, 6.7B）为13B模型选择训练数据时的胜率。结果显示，随着较小模型大小的增加，13B模型在选定数据上的性能提高。

「LPapp」 本文还提出了LP的近似版本LPapp，它只需要训练模型一次就能得到与LP相当的数据选择效果。该方法基于一个简化的假设，即在训练的最后阶段，所有样本的困惑度趋于稳定，从而允许我们仅通过一次训练过程来计算每个样本的学习百分比。LPapp的计算公式简化为LPapp(i) = Pi - Pi-1 / P0，其中Pi是第i个epoch结束时的困惑度，P0是训练开始时的困惑度。上图展示了使用不同大小的OPT模型（350M, 1.3B, 2.7B, 6.7B）选择Alpaca-Data数据点时的Intersection Over Union (IOU)分数。这些分数表明，较小模型选择的数据与较大模型选择的数据在一定程度上是重叠的，证明了LPapp的有效性。

这种方法与传统的LP计算相比，显著提高了计算效率，因为它避免了重复训练模型以获取困惑度排名的需要。但它的局限性在于其基于的假设可能在某些情况下不完全准确。尽管LPapp是一个有用的工具，但在实际应用中可能需要进一步的调整和验证，以确保其在不同模型和数据集上的适用性。总的来说，LPapp为大型语言模型的训练数据选择提供了一种高效且近似的方法，有助于推动模型性能的提升和资源的有效利用。