我要投稿

RegMix-用回归任务解决大模型数据混合问题

发布日期：2024-07-19 12:36:31 浏览次数： 2621

大型语言模型在预训练过程中，如何选取数据的混合比例（利用较少的Tokens来实现较小的Loss从而加速预训练过程）是一个复杂和关键的问题。手动确认数据集中各个组成的比例是不可扩展的，并且很可能不是最优选择。

今天给大家介绍一个用回归任务解决大模型数据混合问题的方法-RegMix。其核心思想是，利用不同的数据混合比例先训练多个小模型并获取其结果，在利用这些样本训练一个回归模型，再遍历所有比例利用回归模型找到最优的数据混合比例，最后用最优数据混合比例训练更大的语言模型。

Paper: https://arxiv.org/abs/2407.01492
Github: https://github.com/sail-sg/regmix

通过训练512个1M的小模型，拟合回归模型，找到top64的数据混合比例，训练1B模型，最优数据混合比例训练的模型的验证集loss也是最低。

方法

整体流程如上图所示，

生成随机数据混合比例，按照比例采用混合数据并训练小模型；
利用数据混合比例作为特征值，模型训练的目标值作为标签，拟合回归模型；
在模拟更大数据混合比例空间，利用回归模型预测最佳目标值，以获取最佳混合比例；
使用模拟出的最佳混合比例的数据训练更大的模型。

训练小模型时越多越好，但为了节约成本需要尽量减少小模型训练次数，那么在初始化数据混合比例时就需要时多样化的，并且每个数据领域需要都存在极端值，数据采用过程主要是基于Tokens（chunk-level）分布的狄利克雷分布来实现。

详见：mixture_config/synthesize_mixture.py

同时在拟合回归模型时，采用了线性回归和LightGBM两种回归模型。

结果

数据集采用Pile dataset中不涉及版权的17个数据集，如下表所示，

512个1M小模型在1B Tokens训练得到的回归模型，与在25B Tokens数据下训练的1B模型，排序具有97.12%的高相关性，如下表所示，

同时训练次数要比训练的总Token数要重要，更影响回归模型的效果，并且采用LightGBM建模要比线性回归建模要好。

PS：跟作者@乾神交流过，512个样本训练回归模型会不会数据量太少，乾神说他们做过1024的实验，但并回归模型效果无明显提高，并且从成本考虑，那么512最佳。

不同的数据混合比例对下游任务结果影响较大，在Lambada数据集上最好和最差的效果相差14.6%，如下表所示，

同时发现了一个与传统理解不一致的结果，一般我们任务维基数据质量很高，是评估大型语言模型最具代表性的数据集。但实验结果发现，网络数据集上评估的效果，更能体现模型在下游任务上的好坏，如下图所示，可以发现Pile-CC数据集作为验证时损失值与下游任务的相关性更强。

并且RegMix可以发现各领域数据之间是如何相互作用的，数据领域之间复杂的相互作用利用人类固有经验很难直接区分。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-30

数据蒸馏技术探索

2025-12-22

多页文档理解强化学习设计思路：DocR1奖励函数设计与数据构建思路

2025-12-21

Llama Factory 实战，轻量级微调 LLM。

2025-12-21

Open联合创始人：AI大模型2025年度回顾

2025-12-14

我微调了一个LangChain专家模型，离Vibe Agent又近了一步

2025-12-11

左脚踩右脚：大模型的有趣且简单的微调方式“SHADOW-FT”

2025-12-11

大模型训练的高效内存解决方案：流水线感知的细粒度激活卸载，实现显存开销与吞吐性能的联合最优

2025-12-08

一杯咖啡成本搞定多模态微调：FC DevPod + Llama-Factory 极速实战

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

从零教你微调一个专属领域大模型，看完小白也能学会炼丹!（完整版）

2025-10-21

微调已死？Google 和斯坦福论文指出AI 学习新范式

2025-10-12

用Macbook微调Qwen3！手把手教你用微调给Qwen起一个新名字

2025-10-14

AI基础 | Qwen3 0.6B 微调实现轻量级意图识别

2025-11-21

基于昇腾NPU的Qwen3量化因子代码生成微调实战

2025-11-05

2张4090竟能本地微调万亿参数Kimi K2！趋境联合清华北航把算力门槛击穿了

2025-11-05

OpenAI公开新的模型训练方法：或许能解决模型撒谎问题，已在GPT-5 thiking验证

2025-12-04

大模型微调全流程实战指南：基于IPO框架的深度解析与优化

2025-11-22

从零开始：手把手教你微调Embedding模型，让检索效果提升10倍！

2025-11-20

LoAR做Fine-Tuning微调原理到底是什么？

2025-11-19

大家都在问

LoAR做Fine-Tuning微调原理到底是什么？

2025-11-19

如何将 AI 代码采纳率从30%提升到80%？

2025-09-25

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

软件公司如何为AI的下半场做准备？

2025-05-10

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部