AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


大模型的微调数据选择技巧(三)
发布日期:2024-04-08 12:13:20 浏览次数: 2144


之前我们提过,大模型的训练数据构造,本质上就是两个方向,数据质量和多样性。

相关前文:

大模型微调数据选择和构造技巧

大模型的微调数据选择技巧(二)

今天继续之前的话题,大模型训练数据的构造话题,第三篇。

大模型训练过程中,除了背后依赖的基础架构组件升级,infra保障之外,亲自操刀训练大模型的角色更像是一个数据配方师的角色。这个角色决定选什么的数据,选多少数据,有很强的经验主义。这可能就是整个大模型构造中,除了组件和infra外,最为重要的部分了。

组件架构方面,比如大模型的MOE负载均衡、rope,越来越是数学、工程、算法优化的三位一体结合,flashattention这种,更是算法数学工程硬件结合的怪物,创新门槛较高,往往是大神开发出来,造福整个开源界。

但折腾数据配方的训练师总没啥难度了吧,无非是让自己的工作效率更高,单位时间测试的配方更多,在有限的资源线之下,寻找更优的配方。

大的方向上大家都懂,关键是如何投入到实践上。

回到问题的关键,找到在实践中如何解决质量的评估和多样性的采样的关键方法。这些方法可能很土,也不如rope,flashattention,MOE负载均衡那么炫酷,但是很重要也很有效。

质量的评估最简单的就是用打分模型。多样性的选择最简单的就是聚类后采样。

这两个途径组合起来,就是今天要讲的方法CaR。和之前提到过的方法类似,CaR方法也是仅使用1.96%的数据就达到与不筛选数据类似的效果。

论文全名:《Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation》

地址:

Paper: https://arxiv.org/abs/2402.18191
Github: https://github.com/IronBeliever/CaR



质量打分模型实现:bert+回归打分。测试集准确率84.5%,相比GPT-3.5 Turbo和gpt-4-1106-preview的效果更好,其准确率是57.48%和63.19%。这里保持在数据集上过拟合的怀疑态度,毕竟只选了2541条指令数据。在集外数据的效果有待考证。

多样性实现:句向量经过PCA降维后聚类。最后利用K-Means算法进行向量聚类,聚类中心有178个。选取过程分两部分,一部分是聚类之前的总指令集和,选取最高分的N1,之后在K个聚类簇中每个簇的选分数最高的N2个,合并为一个集和,重复的去掉。

作者给出效果评估显示,一个只用1/70的数据,就能取得更好的效果。

具体在实操中,这个方法应该是非常初级的,这个Car应该是各家搞基座都尝试过的baseline。

具体在实操中,应该要结合场景进行细化质量评估和采样的过程。

质量选择模型如何做好,这又回到文本分类模型应该怎么弄的老话题上了,本质上也是处理好数据质量和数据多样性。何大模型的数据筛选形成了一个俄罗斯套娃。

数据多样性方面,简单的聚类效果也不不一定好,可能需要针对可解释的标签体系做更深入的分层采样,可能要对不同轮次的对话,不同角色的对话,不同的场景等等,做更细致的多样性采样。

最后总结,我们发现所有的监督学习任务,提升效果的路径之一,都是处理好数据质量和数据多样性。只不过在大模型的训练中,大模型因为数据量的急剧扩大,模型参数量的暴涨,对于实验效率和实验资源消耗带来非常大的压力,操作前需要更好更严格的推演,scaling law要研究的比较细。期待有一家能搞出数据质量,数据多样性的比较量化的scaling law,一个价值巨大的坑就这样挖好了~各位巨佬加油。




53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询