微信扫码
与创始人交个朋友
我要投稿
论文:A Survey on Data Selection for Language Models
链接:https://arxiv.org/pdf/2402.16827.pdf
73页全面综述:如何为大模型挑选“高质量”的数据?
本文针对大模型训练的 5 个阶段:Pretraining, instruction-tuning, alignment, in-context learning, and task-specific fine-tuning,提供了一个统一的视角,以比较、讨论、分类多种数据选择方法。
语言模型数据流程的过程从原始数据开始,经过清洗、过滤和混合,通过数据选择过程创建最终数据集,然后用于训练(或评估)模型。数据选择方法的细节和目标因学习阶段而异,数据选择五个常见目标:提高模型性能,提高数据效率,高效选择数据,确保评估度量的完整性,减少模型偏差和有害性。
数据选择在Pretraining阶段的目标如下:
数据选择在Pretraining阶段的方法主要包括:
预训练的目标通常是训练通用模型,这需要对大量文本进行训练,通常以数十亿和数万亿个令牌为单位。从如此大量的数据中选择最佳数据可能非常昂贵,因此该过程中常见的第一步是使用各种过滤器删除数据,并且可能需要将多个过滤器连接在一起才能获得所需的数据集。我们呈现预训练数据选择方法的顺序大致基于它们在实际数据选择管道中使用的顺序。当然,并非所有管道都需要此处介绍的每种方法,并且根据情况,确切的顺序可能略有不同。
指令调整和多任务训练是解决预训练目标和下游用户目标之间不匹配的方法。多任务训练是一种模型在各种监督任务上进行训练的方法,其目标是执行所有训练任务,并可能推广到未见过的任务。最近,指令调整已成为一种主要的训练范例,其中模型是在(指令,输出)对上进行训练的,其中指令表示模型的人类指令,输出是所需的输出,或所需输出的示例。指令调优的目标是让模型以更可控、对用户更有帮助的方式约束模型输出。
数据选择在Instruction-tuning阶段的目标如下:
多任务训练和指令调整通常都假设模型已经过预训练并且已经获得了基本的语言能力。从广义上讲,经过多任务训练或指令调整训练的模型的目的是处理下游用例的各种可能输入,作为分类或生成模型。因此,这些设置的数据选择的目的几乎总是集中在收集更广泛的数据并使现有数据多样化。方法包括通过扩展任务和数据集实现多样化、基于手动和启发式的多样化、基于模型的多样化等。
各种对齐方法,包括人类反馈强化学习 (RLHF)、人工智能反馈强化学习 (RLAIF) 或直接偏好优化 (DPO) 方法,都涉及将人类偏好整合到模型行为中。此训练过程旨在引导模型响应通常更有帮助且危害较小,而在其他训练阶段(例如预训练或指令调整),这些偏好信号可能不会在效用函数中明确定义。这些方法归为偏好微调 (PreFT),通常遵循大型生成模型训练流程中的指令调整。该数据的格式通常是三重奏(提示;选择、拒绝),其中提示是用户的指令或其他请求,选择是首选答案,拒绝是次要答案。
PreFT 的数据选择方法非常新兴,通常侧重于从模型中获取有关特定功能和评估的信号。在这种情况下,数据选择的主要方法是手动过滤、基于模型的评估和奖励模型重新加权(例如拒绝抽样)。
上下文学习(ICL)是一种广泛使用的语言模型(LM)提示范例。没有使用 LM 进行微调,而是给出了一些演示示例作为提示,指导语言模型对输入查询执行类似的预测任务(Brown 等人,2020)。众所周知,ICL对演示的选择甚至排序很敏感。为了在不广泛训练潜在的大型 LM 的情况下提高 ICL 性能,最近的许多论文致力于通过以下方式构建更好的上下文演示:从一组固定的演示中选择最佳排序,从大量标记数据中进行选择,或者策略性地注释一小组未标记的数据。
该阶段的数据选择的方法主要包括Demonstration reordering、Demonstration selection、Selective annotation。
针对特定目标任务微调模型是一种与预训练、指令调整或 RLHF 非常不同的学习设置,但适用的数据选择方法并没有太大不同。在某些方面,为特定目标任务选择数据可能比以前的设置更容易。首先,因为只有一个目标任务,所以目标分布通常比预训练、指令调整或多任务学习中的目标分布更窄。此外,特定于任务的微调通常更容易评估,因为目标分布更窄,预期用例更清晰,并且成功有更直接的定义,从而导致比之前讨论的设置更不模糊的评估。
针对特定任务微调的数据选择可以大致分为目标是匹配目标分布还是使现有数据分布多样化。第一种设置的目标是匹配目标分布,这在数据有限的情况下特别有用,例如小样本学习 。例如,目标任务(我们希望模型执行的任务)的数据可能非常少,但我们确实可以获得可以利用的各种、大量的辅助数据。第二种设置,其目标是使数据分布多样化,可以进一步分为两种设置,其目标是提高数据效率或者提高模型的稳健性。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19