我要投稿

大模型的微调数据选择技巧（三）

发布日期：2024-04-08 12:13:20 浏览次数： 2693 作者：包包算法笔记

之前我们提过，大模型的训练数据构造，本质上就是两个方向，数据质量和多样性。

相关前文：

今天继续之前的话题，大模型训练数据的构造话题，第三篇。

大模型训练过程中，除了背后依赖的基础架构组件升级，infra保障之外，亲自操刀训练大模型的角色更像是一个数据配方师的角色。这个角色决定选什么的数据，选多少数据，有很强的经验主义。这可能就是整个大模型构造中，除了组件和infra外，最为重要的部分了。

组件架构方面，比如大模型的MOE负载均衡、rope，越来越是数学、工程、算法优化的三位一体结合，flashattention这种，更是算法数学工程硬件结合的怪物，创新门槛较高，往往是大神开发出来，造福整个开源界。

但折腾数据配方的训练师总没啥难度了吧，无非是让自己的工作效率更高，单位时间测试的配方更多，在有限的资源线之下，寻找更优的配方。

大的方向上大家都懂，关键是如何投入到实践上。

回到问题的关键，找到在实践中如何解决质量的评估和多样性的采样的关键方法。这些方法可能很土，也不如rope，flashattention，MOE负载均衡那么炫酷，但是很重要也很有效。

质量的评估最简单的就是用打分模型。多样性的选择最简单的就是聚类后采样。

这两个途径组合起来，就是今天要讲的方法CaR。和之前提到过的方法类似，CaR方法也是仅使用1.96%的数据就达到与不筛选数据类似的效果。

论文全名：《Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation》

地址：

Paper: https://arxiv.org/abs/2402.18191
Github: https://github.com/IronBeliever/CaR

质量打分模型实现：bert+回归打分。测试集准确率84.5%，相比GPT-3.5 Turbo和gpt-4-1106-preview的效果更好，其准确率是57.48%和63.19%。这里保持在数据集上过拟合的怀疑态度，毕竟只选了2541条指令数据。在集外数据的效果有待考证。

多样性实现：句向量经过PCA降维后聚类。最后利用K-Means算法进行向量聚类，聚类中心有178个。选取过程分两部分，一部分是聚类之前的总指令集和，选取最高分的N1，之后在K个聚类簇中每个簇的选分数最高的N2个，合并为一个集和，重复的去掉。

作者给出效果评估显示，一个只用1/70的数据，就能取得更好的效果。

具体在实操中，这个方法应该是非常初级的，这个Car应该是各家搞基座都尝试过的baseline。

具体在实操中，应该要结合场景进行细化质量评估和采样的过程。

质量选择模型如何做好，这又回到文本分类模型应该怎么弄的老话题上了，本质上也是处理好数据质量和数据多样性。何大模型的数据筛选形成了一个俄罗斯套娃。

数据多样性方面，简单的聚类效果也不不一定好，可能需要针对可解释的标签体系做更深入的分层采样，可能要对不同轮次的对话，不同角色的对话，不同的场景等等，做更细致的多样性采样。

最后总结，我们发现所有的监督学习任务，提升效果的路径之一，都是处理好数据质量和数据多样性。只不过在大模型的训练中，大模型因为数据量的急剧扩大，模型参数量的暴涨，对于实验效率和实验资源消耗带来非常大的压力，操作前需要更好更严格的推演，scaling law要研究的比较细。期待有一家能搞出数据质量，数据多样性的比较量化的scaling law，一个价值巨大的坑就这样挖好了～各位巨佬加油。