我要投稿

陈丹琦团队新作：LLM指令微调仅选择5%的数据效果优于全量数据

发布日期：2024-04-23 23:18:17 浏览次数： 2456

作者：VaquitaAI

微信搜一搜，关注“VaquitaAI”

【导读】本文来自普林斯顿陈丹琦团队，提出了一种方法，能够在指令微调数据集中选择5%的数据效果就优于全量数据集的效果。且且适用于不同系列的模型和数据集。

简介

论文《LESS: Selecting Influential Data for Targeted Instruction Tuning 》来自普林斯顿陈丹琦团队，陈丹琦是清华本科（姚班）,斯坦福博士即将毕业，师从Christopher Manning，毕业后成为普林斯顿大学计算机学院助理教授，在学期间曾在ACL，EMNLP，NIPS等自然语言处理与机器学习定会发表多篇文章。

论文思想

LESS 核心思想是通过优化器感知的方式从大量指令数据集中有效地选择5%有价值的数据用于目标指令微调，其在多个下游任务上的表现往往优于使用完整数据集的训练结果。此外，LESS算法选择的数据具有很好的迁移性，小模型选择的数据可以有效地用于训练更大的模型，且适用于不同系列的模型。

方法

1.准备阶段（Warmup Training）：

使用LoRA（Low-rank Adaptation）技术对预训练的基础模型（例如LLAMA-2-7B）进行参数高效的微调，以减少可训练参数的数量并加速训练过程。
在训练集的一个随机子集上进行N个epoch的预热训练，以适应特定的数据分布，并在每个epoch后保存模型检查点。

2. 计算梯度特征（Compute Gradient Features）：

对于每个训练数据点，计算其在预热训练期间的梯度，然后应用随机投影技术（如Johnson-Lindenstrauss Lemma）将这些梯度投影到低维空间，生成低维梯度特征。
将这些低维梯度特征存储在一个梯度数据存储库中，以便后续的数据选择过程可以高效地重用这些特征。

3. 数据选择（Data Selection）：

对于目标任务的验证集（包含少量示例），计算每个子任务的平均梯度特征。
使用LESS算法计算每个训练数据点对于验证集的潜在影响，通过评估数据点的梯度特征与验证集特征之间的相似性来打分。
根据得分选择最高的一部分训练数据点（例如前5%）作为最终的训练集。

4. 目标模型训练（Training Final Model）：

使用选定的数据子集对目标模型进行训练。这个过程可以使用LoRA进行参数高效的微调，或者进行完整的微调。
训练完成后，使用目标模型在测试集上进行评估，以验证LESS算法选择的数据对于提升模型性能的效果。

整个过程的核心思想是利用模型的梯度信息来估计数据点对于目标任务的影响，并通过选择具有高影响力的数据点来进行有针对性的训练，从而提高模型在特定任务上的性能。LESS方法的关键在于它能够适应现有的优化器（如Adam），并且能够有效地处理可变长度的指令数据。此外，LESS构建的梯度数据存储库可以重用于不同的目标任务，提高了数据选择过程的效率。

实验结果

实验结果对比了LESS和全量数据集(100%)、随机选择(5%)在不同模型、不同数据集下的效果。

关键结论：

LESS在不同的模型中都是有效的，在所有模型和评估数据集中，LESS筛选的数据始终显著优于随机；
选择的5%高价值数据通常优于整个数据集的效果
使用小模型选择的数据可以提高较大和不同模型的性能
与其他 baseline 相比 LESS 是唯一持续有效的方法

总结

本文提出了一种基于优化器感知影响力的数据选择算法LESS。LESS 创建了一个有效且可重用的低维梯度特征的数据存储，以实现高效的数据选择。实验证明了 LESS 与全量数据(100%)、随机数据(5%)相比的有效性，并强调了使用较小模型选择数据来训练较大模型的能力。分析和消融实验表明，本文的方法选择了更多可解释的数据，但计算成本可能很高。