AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


MAGPIE:基于自回归LLM的大规模指令数据集自动生成方法
发布日期:2024-08-25 08:53:36 浏览次数: 1660


华盛顿大学和艾伦人工智能研究所的研究人员提出了一种名为MAGPIE的新方法,利用对齐的大语言模型的自动回归特性,通过预定义模板自动生成高质量的用户查询和对应回复,构建大规模指令数据集,从而提高大语言模型的性能。


论文介绍

人工智能的大语言模型 (LLM) 已成为必不可少的工具,因为它们能够处理和生成类似人类的文本,从而使其能够执行各种任务。这些模型严重依赖高质量的指令数据集进行微调,这增强了它们理解和遵循复杂指令的能力。LLM 在从聊天机器人到数据分析的各种应用中的成功,取决于它们所训练的指令数据的多样性和质量。

获取对齐 LLM 所需的高质量、多样化的指令数据集是该领域面临的众多挑战之一。尽管 Llama-3 等一些模型具有开放的权重,但相关的对齐数据通常仍然是专有的,从而限制了更广泛的研究和开发工作。构建大规模指令数据集既费力又昂贵,因此难以实现必要的规模和多样性。这种限制阻碍了 LLM 功能的进步及其在现实世界中各种场景中的应用。

现有的生成指令数据集的方法分为两类:人工整理的数据和 LLM 生成的合成数据。人工整理的数据集虽然精确,但由于手动数据生成和整理需要高昂的成本和时间,因此可能更具可扩展性。另一方面,合成数据生成方法涉及使用 LLM 根据初始种子问题和提示工程生成指令。然而,随着数据集大小的增加,这些方法通常需要更多样性,因为生成的指令往往与种子问题过于相似。

华盛顿大学和艾伦人工智能研究所的研究人员介绍了一种名为 MAGPIE 的新方法。MAGPIE 利用对齐 LLM 的自回归特性来大规模生成高质量的指令数据。该方法涉及仅使用预定义的模板提示 LLM,允许模型自主创建用户查询及其相应的响应。这种方法消除了对手动提示工程和种子问题的需求,确保了多样化和广泛的指令数据集。

MAGPIE 方法包括两个主要步骤:

  • 指令生成
  • 响应生成

在指令生成步骤中,预定义的模板被输入到对齐的 LLM 中,例如 Llama-3-8B-Instruct。然后,模型根据这些模板生成不同的用户查询。在响应生成步骤中,这些查询再次提示 LLM 生成相应的响应,从而形成完整的指令-响应对。这种自动化过程非常高效,无需人工干预,并且分别使用 206 和 614 个 GPU 小时来生成 MAGPIE-Air 和 MAGPIE-Pro 数据集。

研究人员应用 MAGPIE 方法创建了两个指令数据集,MAGPIE-Air 和 MAGPIE-Pro,分别使用 Llama-3-8B-Instruct 和 Llama-3-70B-Instruct 模型生成。这些数据集包括单轮和多轮指令,其中 MAGPIE-Air-MT 和 MAGPIE-Pro-MT 包含多轮指令和响应的序列。然后过滤生成的数据集以选择高质量的实例,从而生成 MAGPIE-Air-300K-Filtered 和 MAGPIE-Pro-300K-Filtered 数据集。

将使用 MAGPIE 数据集微调的模型的性能与使用其他公共指令数据集(例如 ShareGPT、WildChat、Evol Instruct、UltraChat 和 OpenHermes)训练的模型的性能进行了比较。结果表明,使用 MAGPIE 数据微调的模型的性能与使用超过 1000 万个数据点训练的官方 Llama-3-8B-Instruct 模型相当。例如,使用 MAGPIE 数据集微调的模型在 AlpacaEval 2 基准测试中对 GPT-4-Turbo (1106) 的胜率 (WR) 达到 29.47%,并在包括 Arena-Hard 和 WildBench 在内的各种对齐基准测试中超过了官方模型。

总之,MAGPIE 方法的引入代表了用于 LLM 对齐的高质量指令数据集的可扩展生成方面的重大进步。通过自动化数据生成过程并消除对提示工程和种子问题的需求,MAGPIE 确保了多样化和广泛的数据集,使 LLM 能够更好地执行各种任务。MAGPIE 的效率和有效性使其成为希望增强 LLM 功能的研究人员和开发人员的宝贵工具。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询