微信扫码
与创始人交个朋友
我要投稿
LLM用于数据注释的探索揭示了NLP中一个激动人心的前沿领域,为数据稀缺等长期存在的挑战提出了新颖的解决方案,并增强了注释质量和流程效率。论文调研了与LLM就业相关的方法、应用和障碍,包括提示工程和特定域调整等创新策略。它评估了LLM生成的注释对训练机器学习模型的影响,同时解决了偏见和社会影响等技术和伦理问题。通过突出论文的LLM方法新颖分类法、利用LLM生成注释的策略以及对挑战的关键讨论,这项工作旨在推动这个关键领域的未来进步。此外,论文引入了技术的全面分类,并汇编了大量基准数据集以支持正在进行的研究工作,以检查持续存在的挑战和未解决的问题而告终,为该领域未来的研究探索铺平道路。
在复杂的机器学习和自然语言处理领域,数据标注作为关键且具有挑战性的步骤,超越了简单的标签附加,涵盖了丰富辅助预测信息。这个详细过程通常涉及:
用类别或任务标签对原始数据进行分类以进行基本分类
添加中间标签以增加上下文深度
分配置信度分数以衡量标注可靠性
应用对齐或偏好标签以将输出定制到特定标准或用户需求
标注实体关系以了解数据集中的实体如何相互交互
标记语义角色以定义实体在句子中扮演的底层角色
标记时间序列以捕获事件或动作的顺序
由于数据本身的复杂性、主观性和多样性,数据标注给当前机器学习模型带来了重大挑战,需要领域专业知识和手动标记大型数据集的资源密集型性质。GPT-4、Gemini和 Llama-2等 LLM 为革新数据标注提供了 promising 的机会。LLM 不仅仅是工具,它们在提高数据标注的有效性和准确性方面发挥着至关重要的作用。它们自动化标注任务、确保大量数据的一致性,并通过针对特定领域的微调或提示进行调整,显著降低了传统标注方法遇到的挑战,为自然语言处理领域的标注设定了新的标准。
在本节中,论文介绍本文中使用的重要符号和初步知识。符号及其定义见表1。
这里论文深入探讨了论文关于注释过程的方法。论文引入了两个核心模型:注释器模型,表示为A,它将输入数据映射到注释,以及任务学习器,表示为L,它从这些带注释的数据中学习以完成特定任务。论文的重点是利用GPT-4和LLaMA等高级LLM作为注释器(A),而任务学习器(L)可能涉及一个不太复杂的模型,例如BERT,它从这些带注释的数据中学习来执行指定的任务。LLM生成的注释包括分类标签和使用全面的辅助信号来增强原始数据点。这些注释,包括置信度分数、上下文细节和其他元数据,扩展到了传统的分类标签之外。
鉴于NLP任务的多样性,论文在本次调查中主要关注分类任务。然而,论文的方法可以扩展到其他域,如文本生成,其中显式标签y可能不适用。为了说明论文的方法,令Du表示一个未标注的数据池,Dl 是一个手动标注的数据集,其中N和M分别表示它们的大小,这些大小可能在不同场景中有所不同。在分类任务中,论文探讨了以下设置:
这些场景共享两个共同元素:(1) LLM注释器A的注释过程和(2)基于A的注释的L的学习策略。后续章节详细介绍了一种按这些方面组织方法的新颖分类法。附录B中展示了一系列分类的论文。
这里正式化了与LLM交互中常用的技术。给定输入x和特定任务的数据集D,可以使用函数H手动或算法生成提示p,表达为p = H(D,x)。
输入输出提示(Input-Output Prompting,IO)作为与LLM的基本交互模式,表示为函数F。
上下文学习(In-Context Learning,ICL)在IO的基础上通过丰富的示范序列或示例对来增强提示,从而引导LLM朝着期望的输出。
思维链提示(Chain-of-Thought Prompting,CoT)通过在每个演示后追加推理路径进一步增强了ICL。这种增强可以提高LLM的推理能力。
指令调优(Instruction Tuning,IT)引入了基于特定任务说明的LLM微调,使它们能够推广到各种下游任务。
对齐调优(Alignment Tuning,AT)旨在调优LLM以使其行为与人类偏好保持一致。除了人工标注的数据,研究人员还利用LLM生成的注释进行微调。
大型语言模型的出现引发了人们对其进行高质量、上下文敏感数据标注能力的极大兴趣。本节探索了通过 LLM 进行数据标注的各种技术和方法。
手动设计的提示对 LLM 在标注任务中至关重要,旨在引发特定的标注。它们分为zero-shot提示和few-shot提示。
zero-shot:在 LLM 研究的早期阶段,zero-shot提示由于其简单性和有效性而受到欢迎。形式上,标注是通过将精心设计的提示映射到标注而得出的。提示可能包括指示I,概述任务以及真值标签 。
few-shot:这一类别涉及采用上下文学习(ICL)来生成标注。ICL 可以看作是提示工程的一种高级形式,它将人类生成的指示 I 与来自 Dl 的示例相结合。在few-shot场景中,演示样本的选择至关重要。例如,在few-shot语义解析中,Shin et al. (2021)利用 GPT-3 从训练集中选择随机样本作为演示。Rubin et al. (2022) 的另一种方法使用评分 LLM A 来评估演示样本的潜在用途。此外,还有一些工作将其他类型的标注整合到 ICL 中。例如,SuperICL (Xu et al., 2023) 将来自较小语言模型的置信度分数整合到演示中,进一步增强了标注过程。
将 LLM 与人类中心属性对齐的重要性日益受到认可。这些属性,包括有用性、诚实性和无害性,对于除了固有的 NLP 技能之外还面向公众交互的 LLM 至关重要。传统的无监督学习方法,如下一个词预测,在灌输这些品质方面失败。
人工反馈:将这些特征嵌入 LLM 的主要策略涉及基于人类偏好的微调(Dai et al., 2023)。一种流行且资源密集的技术需要对特定 LLM 响应收集定量反馈(Ziegler et al., 2019)。尽管其有效性,但这种方法代价高昂,需要大量努力(Bakker et al., 2022)。像Sparrow(Glaese et al., 2022)这样的计划为人类标注员设定标准,然而研究人员意图与标注员感知之间的差异可能会影响反馈质量。
自动反馈:因此,最近的进展旨在自动化反馈机制,经常利用另一个 LLM 或同一个 LLM 来标注不同的输出(Bakker et al., 2022; Wang et al., 2023b)。这种方法通常涉及一个 LLM 充当奖励模型,基于人类偏好数据进行训练(Menick et al., 2022)。例如,OpenAI 和 DeepMind 分别实现了6B GPT-3 和 7B Gopher 模型作为奖励模型。各种研究已经深入探讨了这种自动化方法的各个方面。例如,Stiennon et al.(2020)收集了人类对摘要的比较判断,以训练一个奖励模型。然后,该模型被利用来通过强化学习优化摘要策略。此外,Askell et al.(2021)评估了奖励模型的不同训练目标,发现与模仿学习相比,偏序建模随着模型大小的增加往往更有效。该模型利用各种社会福利函数来整合这些个人偏好。最新的研究(Rafailov et al., 2023)采用 Bradley-Terry 模型来指导 LLM 评估人类标注员做出的选择。
有效评估 LLM 生成标注的质量对于充分利用其潜力至关重要。重点关注两个主要方面:
本小节探讨了各种评估标注质量的方法,范围从人工导向到自动化方法。
常规方法:研究已经调查了评估LLM注释的各种方法。Efrat和Levy(2020)的“Turking测试”评估了LLM遵守数据注释指南的程度,人工注释者将LLM输出与SNLI(Bowman等,2015)、SQuAD(Rajpurkar等,2016)和NewsQA等基准进行比较。类似地,Honovich等人(2022a)手动检查了LLM创建的数据集的原创性、准确性和多样性,重点关注它们对说明的响应。另外,Alizadeh等人(2023)的研究等通过相关性和主题检测等任务测量开源LLM与人工注释标签的性能。
特定任务的评估:方法因应用而异。例如,在知识图增强中,标记排名指标用于评估LLM在事实补全中的贡献。此外,反事实生成的评估通常利用自我BLEU(Chen等,2023)等度量多样性,而代码生成则依赖于Pass@k(Nijkamp等,2022)等指标。在需要大量数据集的场景中,LLM生成注释的质量与金标准标签在小的标注子集内进行比较(Zhao等,2021; Agrawal等,2022; He等,2023)。
从众多选项中选择高质量注释至关重要。主动学习(AL)作为一种关键技术出现,尤其是将LLM整合到AL过程中。本节介绍了基于池的AL在学习注释框架中的应用,其中存在一个庞大的未标记数据池和一个更小的标记数据集。AL从池中战略性地选择最具信息量的样本以提高学习模型的性能,或者直到达到预算限制。
LLM作为获取函数:存在各种类型的获取函数,分类为(a)多样性,(b)不确定性和(c)相似性。这方面的Notable研究包括Shelmanov等人(2021)的研究; Tamkin等(2022); Margatina等(2023),每项研究都调查了将LLM用作获取函数的不同方面。
LLM作为注释器:创新性研究(Bansal和Sharma,2023; Wu等,2023a)已经在AL设置中采用LLM作为注释器,增强了NLP模型的域泛化和上下文学习。此外,Kim等人(2023)提出利用LLM来注释输入文本对之间的任务特定偏好,促进任务标签的联合学习。
LLM生成的注释为各种机器学习任务提供了宝贵的标注数据资源。本节探讨了利用LLM生成的注释进行学习的方法论。
在本节中,论文探讨了LLM生成的注释在各种下游任务中的实际应用。通过精心设计的提示从LLM中提取的注释为广泛的下游应用提供了宝贵的预测。这种用法分类:
a. 监督:以任何形式利用标签。
b. 无监督:注释充当不涉及标签的预测,例如零样本场景。
预测标签:利用手动设计的提示,LLM以两种不同的方式生成预测标签。首先,在考虑示范样本的情况下预测标签。其次,在不依赖示范样本的情况下进行预测。根据这些示范样本的来源是D ⊂ Dl还是D ⊂ Du,这可以分类为监督或无监督。这种技术使LLM能够为广泛的任务做出贡献,跨领域包括推理、知识库、因果推理、推荐系统、医疗保健甚至视觉语言模型。
推断附加属性:同样,LLM在监督和无监督设置下都能够巧妙地将提示与特定属性或概念相关联。这种能力在概念瓶颈模型等模型中尤为有利,后者通过识别基本概念生成预测。在这种上下文中,LLM可以有效解决数据集注释有限的问题。在视觉语言任务中,LLM可以被用于自动生成图像分类的文本描述
在前文关于直接使用注释的讨论基础上,知识蒸馏(KD)作为一种额外方法来利用LLM的能力。KD有助于将专业知识从较大的“教师”模型(通常为LLM)转移到较小、更专注的“学生”模型。这种技术使学生模型能够匹配甚至超越教师的性能,尽管资源需求更低。
模型增强:目前,几项研究已经采用KD来丰富任务特定的学习器模型(表示为L)与基于LLM的注释器(称为A)的见解。例如,(Magister等,2022; Fu等,2023; Sun等,2023; Li等,2024)等研究工作关注使用A注释的数据集训练L。相反,(Hsieh等,2023)利用A提供的“任务困难度”作为辅助标签来增强L的学习过程。值得注意的是,Alpaca(Taori等,2023a)和GPT4All(Anand等,2023)采用LLM生成的语料库来训练它们的轻量级学生模型以实现出色的性能。
KD创新:在工具方面,GKD(Tan等,2023a)作为一个新近开发的库,使用LLM简化了KD过程。这个动态领域的进步包括将黑箱(Jiang等,2023b)和白箱(Gu等,2023c) LLM用作教师模型,提高效率(Jha等,2023),并扩展到专业领域,如生物医学知识提取(Gu等 ,2023b),代码生成(Gunasekar等,2023a),Web内容过滤(Vörös等,2023)和数学推理(Fu等,2023)。
总之,采用KD训练特定任务的模型提供了计算需求降低和性能持续的双重优势,使其成为当代自然语言处理中一个非常有前途的途径。
遵循知识蒸馏原则,在LLM适应中使用LLM生成的注释进行微调或提示越来越受欢迎,这有助于解锁LLM的潜力。研究表明,用于监督微调的更大数据集可以增强LLM的推广能力(Sanh等,2021; Wei等,2021),这突出了LLM注释数据的日益重要性(Wang等,2022c)。这些方法主要分为四类:
上下文学习:起源于GPT-3模型(Brown等,2020),上下文学习(ICL)已经被广泛用于提升LLM在各种任务上的性能。这种方法通常采用特殊格式的提示,包含任务说明以及示例演示(Dong等,2022)。这些提示可以协助LLM外推到新的未见任务,而无需明确的参数更新。尽管有效,但它们通常很难实现(Margatina等,2023)。因此,一个有效的方法是根据LLM生成的注释获得有用的提示(Hongjin等,2022)。由于任务说明对ICL性能至关重要,为避免繁琐的人工操作过程,提出了多种工作来自动生成说明(Zhao等,2023)。在(Honovich等,2022b)中,作者观察到,提供几个示范例子后,LLM可以学习生成各种任务的说明,从而提高ICL性能。
除了将LLM生成的注释用作说明的方法外,其他工作也探索了利用LLM生成的演示进行ICL的可能性(Dong等,2022)。其中,一项名为合成提示(Shao等,2023)的最新工作获得了关注。该技术根据给定输入问题的推理链构建新问题,其后是聚类方法来选择最多样化和复杂的演示。利用原始文本数据集进行热身,(Chen等,2022)引入了一种创建自监督数据的方法,该数据与各种下游任务的ICL学习格式对齐。
思维链提示:它代表ICL内的一种专门方法,具体来说,它提高了LLM在算术推理(Miao等,2021)、常识推理(Talmor等,2018)和符号推理(Wei等,2022b)等复杂推理任务上的性能。与传统ICL不同,CoT在提示中引入中间推理步骤。这些步骤旨在有意义地促成最终输出。这种区别凸显了CoT关注推理机制的重点。人们广泛认为,创建有效的CoT提示对于解锁LLM的复杂推理能力至关重要(Dong等,2022)。由于手动创建此类提示可能是代价高昂且耗时耗力的(Wei等,2022b),最近的工作普遍提出通过LLM自动生成CoT提示。例如,在零样本CoT(Kojima等,2022)中,LLM被提示“让论文逐步思考”来生成推理步骤,其后是“因此,答案是”以得出结论。Auto-CoT(Zhang等,2022)通过对训练问题进行聚类来完善这种方法,以确定每个簇最代表性的问题。相关研究(Wang等,2022a)通过考虑提示置信度进行了扩展,发现不同的推理路径对有效的CoT至关重要。在另一方面,(Fu等,2023)提出结合LLM生成的CoT和少量示范来保留ICL能力,同时在使用不同的提示格式时增强推理性能。(Wang等,2023a)探索了基于CoT提示的知识蒸馏中使用LLM注释的合理性。尽管存在不相关或无意义的合理性,但作者使用对比解码显著提高了用这些增强数据训练的学生模型的推理能力。
指令调优:ICL通过改变输入结构来调整LLM,而指令调优则采用不同的方法,通过在监督学习上下文中对各种任务进行模型微调(Zhao等,2023)。多项工作证明,在微调后,LLM在推广到不熟悉的任务方面显示出显着的能力(Chung等,2022; Muennighoff等,2022)。然而,为指令调优获得高质量训练数据的过程通常涉及大量人力工作,这在某些实际场景下可能不切实际(Lou等,2023)。为避免劳动密集型获取人类注释的过程,最近的工作转而使用LLM生成的注释。作为一个典型的例子,在自我指示(Wang等,2022b)中,提示LLM自主生成新的指令输入输出对。然后过滤这些实例并用于T5模型(Brown等,2020)的微调。这种两阶段流水线生成指令,过滤无效或冗余实例,并将其余实例用于模型微调。Alpaca(Taori等,2023b)以指令遵循演示的形式利用LLM生成的注释来微调LLaMA模型(Touvron等,2023a)。值得注意的是,GopherCite模型(Menick等,2022)引入了一个强化学习框架来训练LLM以生成受支持的证据引用形式的注释,从而增强了它们的响应的可验证性。(Chiang和Lee,2023)对使用LLM生成的注释进行人类评估的可靠性进行了研究。
对齐调优:对齐调优旨在通过调整不合适的LLM行为来使其与人类预期保持一致(Zhao等,2023)。但是,在实践中,收集人类反馈通常是昂贵和劳动密集型的(Ziegler等,2019)。因此,现有的作品通常会学习一个模仿人类偏好的替代奖励模型,用于一对输入(成对反馈)。要训练用于注释的奖励模型,研究人员通常首先会从人类标注员那里收集标有标签的成对反馈数据集。然后,基于不同的策略,许多算法直接从Dl中学习(Keskar等,2019; Liu等,2023a; Korbak等,2023),而其他算法(Christiano等,2017; Ouyang等,2022)则学习从Dl学习一个替代奖励模型,并用它自动标注 LLM 生成的无标记成对反馈。为了使LLM与注释对齐,现有的作品通常利用强化学习的策略(OpenAI,2023; Touvron等,2023b),即RLHF(来自人类反馈的强化学习)。作为一个典型的例子,InstructGPT(Ouyang等,2022)利用PPO策略(Schulman等,2017),并在每次更新中计算当前LLM输出与上一次更新的输出之间的Kullback–Leibler(KL)散度。通过这种方式,框架可以以更稳健的方式进行优化。另一方面,ILQL(Snell等,2022)在流行的在线RL场景的对比下,探索了对齐调优在LLM生成注释上的离线设置中的应用。在GopherCite(Menick等,2022)中,作者采用来自人类偏好的强化学习(RLHP)来训练QA模型,这些模型同时产生答案并引用特定的证据来支持其声明,从而方便评估准确性。更近期的RLAIF(Lee等,2023)利用一个开箱即用的LLM标记的偏好代替人类,获得了与使用人类标记数据相似的性能。
在本节中,论文概述了LLM数据注释的挑战,包括技术障碍、准确性问题以及劳动力置换和偏差传播等社会影响。解决这些问题对推进LLM注释应用至关重要。
模型模仿中的复合错误:为了弥合ChatGPT等专有LLM与LLaMA等开源对应物之间的性能差距,通常的做法是通过使用更强大模型的输出来增强后者的能力(Sun等,2023; Gunasekar等,2023b; Hsieh等,2023; Honovich等,2022a; Chiang等,2023; Geng等,2023)。虽然这种策略产生了可变的结果,但模仿模型通常会复制优越模型的风格元素,而没有达到事实精确度(Gudibande等,2023)。研究突出了模仿的失败主要是由于模型塌陷,其中模仿模型逐渐偏离它试图复制的模型的数据分布(Shumailov等,2023)。这种发散主要由两个问题引起:来自有限样本量的统计近似误差和来自受约束模型容量的功能近似误差。这两种错误在连续的训练周期中都趋于放大(Alemohammad等,2023)。
模型坍塌和近似误差的后果也延伸到社会领域:在未来模型训练中传播和利用具有这些不准确性的LLM生成注释可能导致数据污染。这种情况有可能随着时间的推移削弱LLM的可信度,并影响它们在关键应用中的效用。解决这些问题对于构建下一代LLM或人工通用智能(AGI)越来越重要。
LLM注释中幻觉的影响:LLM中的幻象现象显着削弱了它们生成的注释的完整性和可靠性(Alkaissi和McFarlane,2023; Azamfirei等,2023)。脱离实际数据的输出可能导致注释中的误报和不准确,在医疗保健、法律分析和金融领域等敏感领域带来重大风险(Jiang等,2023a; Chen和Shu,2023)。应对幻觉需要全面的策略,包括完善LLM的训练过程以减少毫无根据的内容的出现,并通过自动化和手动验证实现注释的验证机制(Liao和Vaughan,2023; Pan等,2023; Bian等,2023)。然而,LLM的固有不透明性使得识别和纠正幻觉的原因变得复杂,这为将LLM部署到关键注释角色中带来了伦理困境。这强调了正在进行的研究以减轻幻觉的必要性,同时在LLM应用领域平衡性能改进与伦理问题。
社会影响:LLM生成注释在金融(Yang等,2023)、司法(Cui等,2023)和医疗保健(Eloundou等,2023)等实际行业中的激增可能会显著提高效率和生产力。然而,这种自动化带来了社会挑战,特别是在劳动力置换、注释质量和社会发展影响方面。向自动化注释的转变有可能使人类注释员的角色变得多余,可能加剧收入差距并影响低技能的就业领域(Dillion等,2023)。此外,尽管LLM注释生成的速度很快,但缺乏人类洞察力可能导致输出缺乏深度,导致偏颇或不公平的研究结果(Wu等,2023b; Abid等,2021; Cheng等,2021; Li等,2023)。此外,依赖LLM执行传统上由人类管理的任务需要谨慎的方法,以确保技术进步不会无意中加剧社会不平等或降低质量标准。未来的研究应旨在协调技术进步与其更广泛的社会后果。
本综述做出了以下四个主要贡献:
基于 LLM 的数据标注: 论文深入研究了 GPT-4 和 Llama-2 等新型 LLM 的特定属性(例如语言理解、上下文理解)、能力(例如文本生成、上下文推理)以及微调或提示策略(例如提示工程、特定领域的微调),使它们特别适合标注任务。
评估 LLM 生成的标注: 论文探索了评估标注质量和从众多选项中选择高质量标注的各种方法。
利用 LLM 生成的标注进行学习: 论文研究了基于 LLM 生成的标注训练机器学习模型的方法,评估质量、可靠性和对下游任务的影响。
挑战和伦理考量: 论文识别和讨论了从采样偏差和幻觉等技术限制到社会偏见和更广泛的社会影响等伦理困境。
关注LLM应用这个代表性不足的方面,本调查旨在为打算将LLM用于注释的学术界和从业者提供有价值的指导。请注意,在本次调查中,论文主要关注纯语言模型。因此,论文没有考虑最近出现的多模态LLM,比如LLaVA(Liu等,2023b)。图1 Illustrate了本次调查的总体框架。附录A中包含了利用LLM进行注释的潜在工具列表及解释性示例。
与其他LLM相关调查的区别:尽管现有的LLM调查广泛覆盖了与LLM相关的架构细微差别(Zhao等,2023)、训练方法(Liu等,2023d)、知识编辑(Wang等,2023c)和评估协议(Chang等,2023),但它们的重点在于模型对特定最终任务的能力,如机器翻译(Min等,2021)、对齐(Wang等,2023d)、代码生成(Zan等,2023)和医学(Thirunavukarasu等,2023)。相比之下,本次调查的与众不同之处在于强调将这些强大的新一代LLM应用于数据注释的复杂领域,这是一个至关重要且未充分开发的领域。
论文标题:Large Language Models for Data Annotation: A Survey
论文链接:https://arxiv.org/pdf/2402.13446.pdf
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-04-25
2024-05-14
2024-07-18
2024-04-26
2024-08-13