我要投稿

Macpie：合成数据用于训练大型语言模型

发布日期：2024-06-28 05:41:20 浏览次数： 2884

作者：AI进修生

微信搜一搜，关注“AI进修生”

通过提示无任何内容的对齐 LLM 从头开始进行对齐数据合成”的官方存储库。

https://magpie-align.github.io/

Hi，这里是Aitrainee，欢迎阅读本期新文章。

主要思想提取：

1. 使用Macpie工具自动生成合成数据，不需要手动输入。
2. 合成数据用于训练大型语言模型，提升效率并降低成本。
3. Macpie生成的数据集比基础模型表现更好。
4. 解释Macpie的工作原理，包括标签和自动生成问题与答案的过程。
5. 演示如何使用Macpie生成合成数据，并提供具体步骤。

Macpie 是一个令人惊叹的工具，它可以完全自动地生成合成数据，无需任何人工指令。通过大型语言模型，Macpie 能够自动创建用于训练模型的数据，显著减少了时间和成本。这对于我们训练大型语言模型来说非常重要，因为手动创建数据集既耗时又昂贵。而有了Macpie，我们可以更快更低成本地完成这项工作。

我想给大家展示一下，使用在训练Llama 3 instruct模型时，表现优于基础模型。在相关论文中也提到，当使用合成数据训练基础模型时，其在多个任务中的表现均超越了原模型。那么，Macpie是如何生成这些数据的呢？今天我们就来详细了解一下。

Macpie能够从无到有地生成合成数据。通常情况下，当你向大型语言模型提问时，会得到一个响应，但在后台，每个问题和答案前后都会自动添加特定标签。通过仅提供这些标签，Macpie能够自动预测并生成完整的问题，然后再使用相同的模型生成响应。这个过程可以无限循环，从而自动生成大量的问答对。

下面继续文字教程（缺少的配图可结合视频教程观看&后面有Macpie项目介绍）

让我们以Llama 3为例。在文档中，你会看到所有标签都被标记为特殊标记。我们仅提供初始标签，模型就能自动生成完整的问题，然后同样通过这些标签生成相应的答案。

这一过程如同一个循环，模型不断生成问题并回答，最终得到大量的训练数据。结果显示，使用这些数据训练的模型效果显著优于基础模型。

接下来，我将逐步演示如何使用Macpie生成类似的数据，并尝试用自己的大型语言模型进行测试。

我们将首先克隆Macpie的代码库。我会使用M电脑来执行这项任务，这样可以使用更便宜的GPU。接下来，创建一个虚拟环境以确保项目之间的隔离，之后安装所需的依赖包。我们使用的是Llama 3 8 billion参数模型，因此需要申请访问权限，并生成访问令牌以下载模型。

然后，通过命令行登录Hugging Face并输入访问令牌。在同一文件夹中，我们会找到一个名为demo.iynb的文件，打开它并选择我们创建的虚拟环境，即可开始运行代码。首先，我们初始化模型并配置管道，然后提供预查询模板以生成问题。模型会根据模板自动生成问题和答案，通过重复这一过程，我们可以生成大量合成数据。

这就是使用Macpie生成合成数据的整个过程。通过这些数据，我们可以训练自己的大型语言模型，从而获得更好的结果。

下面提供官方的文档介绍、相关资源、部署教程等，进一步支撑你的行动，以提升本文的帮助力。

? Magpie

Magpie 支持的模型

目前，Magpie 已在 Llama-3 和 Qwen2 系列上进行了测试。如果有更多的模型支持，可以随时提交到 configs/model_configs.json。

模型系列	Magpie	Magpie 脚本	数据集
Llama 3	✅	8B,70B	8B,70B
Qwen2	✅	7B,72B	72B
Phi 3	✅	mini,small,medium	medium
Llama 2	⭕️	7B,70B
Gemma	⭕️	7B
Mistral	⭕️	7B
Yi	⭕️	34B

• ✅: 效果极佳！
• ⭕️: 部分有效。可以得到一些有趣的结果，但可能需要强大的过滤器和/或 logits 处理器。
• ❌: 无效。
• ❓: 未测试。

我们希望 Magpie 能为 AI 的民主化做出贡献。通过你的帮助，我们可以创建更多数据并增强模型对齐过程的透明度！

摘要

高质量的指令数据对于对齐大型语言模型 (LLMs) 至关重要。尽管一些模型，如 Llama-3-Instruct 具有开放权重，但其对齐数据仍是私有的，这阻碍了 AI 的民主化。

高人力成本和有限的、预定义的提示范围使现有的开源数据创建方法无法有效扩展，可能限制了公共对齐数据集的多样性和质量。我们提出了一种名为 Magpie 的自我合成方法，用于大规模生成对齐数据。

我们的关键发现是，通过输入仅包含左侧模板到用户消息预留位置的内容，Llama-3-Instruct 等对齐 LLM 可以生成用户查询。

这种方法允许我们提示 Llama-3-Instruct 并生成 400 万条指令及其相应的响应。我们对提取的数据进行了全面分析，并选择了 30 万条高质量实例。

为了比较 Magpie 数据与其他公共指令数据集的表现，我们使用每个数据集微调 Llama-3-8B-Base，并评估微调模型的表现。结果表明，在某些任务中，使用 Magpie 数据微调的模型表现与官方 Llama-3-8B-Instruct 相当，尽管后者通过监督微调 (SFT) 和后续反馈学习增强了 1000 万数据点。

我们还表明，单独使用 Magpie 进行 SFT 的表现优于之前用于 SFT 和偏好优化的公共数据集，如 UltraFeedback 的直接偏好优化。这一优势在 AlpacaEval、ArenaHard 和 WildBench 等对齐基准上尤为明显。

安装

构建环境

git clone https://github.com/magpie-align/magpie.git
cd magpie
conda create -n magpie python=3.10
conda activate magpie
pip install -r requirements.txt

从 ? Huggingface 获取 Llama-3 模型访问权限

你可以在这里申请 Llama-3 模型访问权限。要在终端登录，请输入：

huggingface-cli login

然后输入以 "hf_" 开头的 Huggingface 私钥。

示例

使用 Jupyter Notebook

示例可以在 demo.ipynb 中找到。玩得开心！

批量数据生成

要使用 Llama-3-8B-Instruct 运行批量生成，你可以简单地运行：

cd scripts
bash magpie.sh

该脚本将在数据文件夹中生成指令和响应。它已在 RTX 4090 24G GPU 上测试。如果你使用的 GPU 内存较少，考虑实现量化。

我们还提供了其他模型的脚本，见 scripts 文件夹。你可以使用此导航找到特定的 Magpie 脚本。请注意，对于大于 8B 的模型，你可能需要 4*A100 GPU 来运行这些脚本。

数据集标记和去重

标记

要标记在上一步生成的指令-响应对，例如 ***_ins_res.json，你可以运行：

cd scripts
bash unitag.sh ***_ins_res.json all

该脚本将自动生成生成数据集的质量、难度、任务类别、安全性和奖励标签。你也可以一次生成一个标签。例如，如果你只想使用设备 0 生成安全标签，可以运行：

cd scripts
bash unitag.sh ***

_ins_res.json safety 0

数据合并和转换以进行微调

你可以使用不同的生成配置生成数据集。我们提供了一个 Jupyter notebook here 用于合并所有数据集并将其转换为 ShareGPT 格式，Axolotl 完全支持该格式进行微调。

去重

一旦你有了一个完整的 ShareGPT 格式的数据集，你可以计算每条指令的最小邻居距离并去除重复项。要执行此操作，请运行：

cd exp
python gen_dis.py --input_file ***_sharegpt.jsonl

其中 ***_sharegpt.jsonl 是在上一步中获得的数据集路径。Python 脚本将负责构建 FAISS 索引并计算最小距离。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-05

Ollama新版功能：AI思维链控制

2025-07-05

炸裂！AI“读心术”被破解，我们终于能亲眼看见它的思考过程了！

2025-07-05

智谱新出的模型，做PPT太会整活了

2025-07-05

微软裁员9000人！给员工整不会了：用不用AI都要被裁？

2025-07-04

Karpathy：我不是要造新词，是「上下文工程」对 Agent 来说太重要了

2025-07-04

AI Agent的核心：Context Engineering（上下文工程）

2025-07-04

AI Agent与AI Workflow：“对决”与“共生”，未来属于“混血儿”！

2025-07-04

破局AI内卷：揭秘驱动10倍效能的AI工作流三大核心技术支柱

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek R1-0528 小版本升级

2025-05-29

教你解决GPT4o无法使用新版生图功能的教程

2025-04-11

AI法规-《生成式人工智能服务管理暂行办法》（中国）（2023.7）

2025-04-12

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

微软突发“封杀令”！全面禁止Cursor使用C、C++、C# 扩展，开发者被迫回退版本

2025-04-12

Qwen3发布: 4B干掉旧代 72B / Windsurf又增加新的免费计划

2025-04-29

CAG 与 RAG：哪种方法能带来性能更好的人工智能

2025-05-07

高效 Agents 构建指南

2025-05-23

忽视小模型和知识库，企业AI应用必将是死路一条

2025-05-07

豆包，让有独立显卡的电脑都能部署本地大模型，语料库就是电脑里的文件

2025-04-17

大家都在问

微软裁员9000人！给员工整不会了：用不用AI都要被裁？

2025-07-05

智能体（Agent）是怎么知道什么时候要调用 Tool 的？

2025-07-04

AI狂潮下：大公司如何破解"创新者窘境"？

2025-07-04

Anthropic多智能体如何破解企业级任务并行处理瓶颈？

2025-07-03

AI 商业化，Salesforce 做对了什么？

2025-07-03

AI 编程如何在团队中真正落地？

2025-07-02

AI 如何成为认知导航仪？

2025-07-02

巨头混战Agent，押注背后是真未来还是新泡沫？

2025-07-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB