我要投稿

大型语言模型终身学习综述

发布日期：2024-06-17 19:58:02 浏览次数： 3423

作者：苏哲管理咨询

微信搜一搜，关注“苏哲管理咨询”

摘要随着大型语言模型 (LLMs) 在各个领域应用的扩展，它们适应数据、任务和用户偏好的能力变得至关重要。传统的静态数据集训练方法无法应对现实世界信息的动态性。终身学习(或持续学习)通过使LLMs 在整个运行生命周期中持续学习和适应，解决了这个问题，它能够整合新知识，同时保持已学习的信息，防止灾难性遗忘。我们的调查探讨了终身学习的现状，将策略分为两类，取决于新知识如何融入：内部知识，LLMs 通过全量或部分训练将新知识融入参数；外部知识，它将新知识作为维基百科或API 等外部资源，而不更新模型参数。我们的调查的主要贡献包括：(1)提出一种新颖的分类体系，将广泛的终身学习文献划分为12种场景；概括所有终身学习场景中的常见技术，并将现有文献分类到不同的技术组别；(3)强调了模型扩展和数据选择等新兴技术，这些在LLMs 出现之前的研究较少涉及。我们的资源可在https://github.com/qianlima- lab/awesome-lifelong-learningmethods-for-Ilm上获取。

概念：·计算方法论一自然语言处理(Natural Language Processing,NLP)

关键词和短语： 终身学习、大型语言模型、灾难性遗忘

郑俊豪，邱胜杰，施成铭，马千力。2024年。终身学习大型语言模型：综述。卷1,第1期(2024年6月),

https://doi.org/XXXXXXX.XXXXXXX

1引言

2终身学习简介

2.1问题陈述

2.2评价指标

2.3常用手法

2.4评测标准和数据集

3方法：持续预训练

3.1连续垂直领域预训练

3.2持续语言领域预训练

3.3持续时间域预训练

3.4小结

4方法：持续微调

4.1连续文本分类

4.2姓名实体识别的持续演化

4.3持续关系抽取

4.4持续机器翻译

4.5持续调优指令

4.6知识编辑持续进行

4.7持续对齐

4.8知识编辑持续进行

4.9持续对齐

4.10小结

5方法论：外部知识

5.1基于检索的终身学习

5.2基于工具的终身学习

5.3总结

6讨论与结论

6.1现有挑战

6.2当前趋势

6.3后续步骤

6.4结论

7鸣谢

8参考文献

1 引言

随着大型语言模型(LLMs)[1,29,163,190,242]在各个领域应用的扩展，这些模型适应数据、任务和用户偏好的持续变化的能力变得至关重要。传统的训练方法，依赖于静态数据集来训练LLMs, 越来越难以应对现实世界信息的动态性[259]。终身学习(也称为连续学习或增量学习)[201],即LLMs 在其整个运行生命周期中持续且适应性地学习的能力，通过整合新知识来应对这一挑战。*前三名作者对这项研究贡献相同。

1.终身学习示例：人类可以逐步学习新技能，如走路、骑自行车和驾驶汽车。同样，终身学习的目标是使LLMs 具备新的语言、领域知识和信息。

并能够保留之前习得的信息，从而避免了灾难性遗忘的问题[130]。图1展示了终身学习的一个示例。

本调查深入探讨了终身学习的复杂领域，根据新知识的整合方式将策略分为两大类：内在知识和外在知识。

每个类别包含独特的方法，共同致力于提升LLMs 在各种场景下的适应性和效率。我们在图2中提供了LLMs 终身学习方法的分类学。

内部知识组 (LLMs 通过完整或部分训练将新知识融入参数)包括策略，如持续预训练[20,45,78,121,158]和持续微调[69,110,142,184,199,207,270]。例如，在工业应用中，常采用持续垂直领域预训练 [47,178],企业会定期使用来自金融等行业的领域特定数据来重新训练LLMs。尽管这提高了在特定领域的性能，但也可能削弱模型的通用知识库，突显了在专业适应性和知识保持之间维持平衡的挑战。持续微调涵盖了针对特定场景的方法，如文本分类[69]、命名实体识别[142]、关系抽取[199]和机器翻译[14],以及任务无关的方法，如指令调优[184]、对齐[110]和知识编辑[207]。此外，利用人类反馈的强化学习[183]也被用于持续对齐，以确保LLMs 遵循诸如安全性和礼貌性的人类价值观[98,150],这凸显了所谓的“对齐成本”[110],即过于专注于特定价值可能会牺牲模型的通用能力。

外部知识 (External Knowledge) 将新知识作为外部资源(如维基百科或API) 融入模型，而无需更新模型参数。这包括基于检索的终生学习[81]和基于工具的终生学习[155],它们利用外部数据源和计算工具来扩展模型的功能。基于检索的方法，如检索增强生成[5,76,81,90,191],通过从维基百科等外部数据库提供上下文相关、准确且最新的信息，提升文本生成的质量，确保模型的输出随时间保持相关性。另一方面，基于工具的学习类似于人类使用工具[4],模型学习利用外部计算工具，从而扩展其问题解决能力，而无需直接修改核心知识库。

图 2 .LLMs 终身学习方法的分类。

本文通过对这些群体及其各自的类别进行深入剖析，旨在强调将终身学习能力融入到LLMs ( 大型语言模型 ) 中，从而提升其在现实应用中的适应性、可靠性和整体性能。通过解决终身学习所面临的挑战，并探索这一领域的创新，本调查旨在推动更强大、更具多样性的LLMs 的发展，使其能够在不断演变的数字环境中茁壮成长。

本调查与现有研究的区别。近年来，终身学习已成为 一 个日益热门的研究课题。大量调查已经探讨了神经网络的终身学习[10,35,39,82,132,146,169,176,189,201,222,232,239,240,259,272]。大多数现有调查主要集中在卷积神经网络 (CNN) 的终身学习上[10,35,132,146,201,239,272]。它们考察了 CNN 的终身学习的各种场景，包括图像分类[10,35,146,201,272]、分割[239]、目标检测[132]、自主系统[169]、机器人技术[99]以及智慧城市[232]。此外，一些调查也探讨了图神经网络的终身学习[39,189,240,244]。然而，关注语言模型的终身学习文献相对较少[10,79,82,176,222,259]。 Biesialska 等[10]是关于自然语言处理(NLP) 领域早期的终身学习调查，但仅关注词和句子表示、语言建模、问答、文本分类和机器翻译的终身学习。 Ke 等人[82]关注的终身学习场景包括情感分类、命名实体识别和摘要，还讨论了知识转移和跨任务类别分离的技术。[79,176,222,259]是与本研究密切相关的四篇近期调查。Zhang等人[259]对将LLMs 与不断变化的世界知识对齐的技术进行了全面回顾，包括持续预训练、知识编辑和检索增强生成。Wu 等人[222]从三个方面重新审视了终身学习，包括持续预训练、持续指令调优和持续对齐。 Shi 等人[176]从两个方向审视LLMs 的终身学习，即垂直方向(或垂直连续学习),即从一般能力向特定能力的持续适应，以及水平方向(或水平连续学习),即跨时间域的持续适应。Jovanovic 等人[79]回顾了几种实时学习范式，

包括持续学习、元学习、参数高效学习和专家混合学习。尽管最近的综述[79,176,222,259]收集了最新的终身学习文献，但它们都没有涵盖连续文本分类、连续命名实体识别、连续关系抽取和连续机器翻译等场景，对连续对齐、连续知识编辑、基于工具的终身学习和基于检索的终身学习的讨论也很少。据我们所知，我们是第一个全面系统地审视LLMs 的12个场景下的终身学习方法的调查。本调查的贡献。我们的调查的主要贡献包括‍

·新颖分类法：我们提出一个详尽而结构化的框架，将大量的终身学习文献划分为12个场景(如图2所示)。

·常用技术：我们在第2.3节中概述所有终身学习场景中的常用技术，并在每个场景下将现有文献分类到不同的技术组中(例如，表1、表2、表3)。

·未来方向：我们强调了模型扩展(Section 3.1.2)和数据选择(Section 3.1.4)等一些在大模型时代之前较少探索的新兴技术。

本调查的组织结构。本文的其余部分按照以下方式组织。第2节介绍了问题陈述、评估指标、常用技术、基准和终身学习的数据集。第3节、第4节和第5节分别探讨了连续预训练、持续微调和基于外部知识的终身学习现有技术。第6节讨论了使用大型语言模型进行终身学习面临的现有挑战、当前趋势以及未来发展方向，并对本调查进行了总结。

2 终身学习简介

2.1 问题陈述

形式上，终身学习的目标是从一系列任务{D(1),D(2),…,D(T)} 中学习语言模型fD:x→y, 其中第t 个任务 D(t)={(x(t),y(t))} 包含输入x(t) 和目标输出y(t) 。输入x和y都是自然语言。对于生成任务如问答，x 和y表示问题和答案；在机器翻译中，x和y代表源语言和目标语言；在文本分类中， x和y 分别代表输入文本和类别标签名称。在自回归语言模型的预训练任务中，x 表示一个令牌序列[x1,x2,…,xn-1], 而y则对应于每个令牌是原始输入中下一个令牌的序列，[×2,x3,…,xn]。

2.2 评价指标

可以从三个维度来评估持续学习的有效性：迄今为止学到的所有任务的整体性能、先前任务的稳定性和适应新任务的可塑性。

·总体测量：(1)平均准确度(AA, 数值越高越好)是指模型在当前学习的所有任务上的平均性能。正式定义为，当模型学习了t 个任务时的平均准确度为：

(1) 其中at 表示在学习了t 个任务后，在任务i 上的性能得分。我们假设性能得分越高，性能越好。 (2)平均增量精度(AIA, 分数越高越好)是通过计算得出的。

图3:LLMs 用于终身学习的四种常见技术类别。

作为学习每个任务后平均准确度的平均值。假设总共有 T 个任务，我们有

与AA 相比，AIA在学习每个任务时捕获了历史变化。

·稳定性测量：（1）遗忘测量（FGT，越低越好）评估每个旧任务的平均性能下降。性能下降定义为其先前获得的最大性能与其当前性能之间的差值。从形式上讲，学习t任务后的遗忘度量定义为

遵循：

(3)

其中max;∈{i,i+1,…,t}(aj,i) 表示在学习任务i之后，任务 j的最大性能，而 at,表示学习了t个任

务后任务 i的性能。(2)后向迁移(Backward Transfer,越高越好)评估每个旧任务的平均性能变化。性能变化定义为当前性能与其初始学习时的性能之差。形式上，学习了 t个任务后的后向迁移定义为：

BWT=\frac{1}{|\mathcal{T}_ol}\sum _{j \in \mathcal{T}_o}(\text{current

其中 T0是所有旧任务的集合。

(4)

·弹性度测量：前馈迁移(FWD, 值越高越好)评估在学习每个新任务后的平均性能提升。该指标通过计算任务初次学习时的初始性能与仅在这个任务上进行训练且无先验知识的模型的性能之差来确定改进。形式化地，学习了t个任务后的前向迁移定义为：

其中 äi 是仅在 D（i）上训练的随机初始化模型的性能。

2.3 常用手法

现有的终生学习方法大致可以分为四类：

重播法(replay) 、正则化法(regularization)、基于方法的架构，基于方法的蒸馏法 (distillation) 。这四类终生学习方法的示例如图3所示

图4:基于架构的终生学习方法(LLMs) 的六类。

2.3.1 基于重放的方法

根据数据回放的方式，基于重放的方法主要分为经验回放(Experience Replay)和生成式回放 (Generative Replay)。

·回放经验 (Experience Replay): 这种方法涉及保留先前遇到的一小部分数据或这些数据的简化表示，这些数据会在训练新任务时周期性地重新融入。通过让模型再次接触旧数据，这一技术有助于维持其在先前任务上的性能，强化现有知识。例如，在持续预训练的背景下，[47,78,117,158]在训练阶段系统性地引入领域特定的数据集，以刷新模型的记忆，使其学习在不同领域更加稳定。

·生成式重播(Generative Replay):这种方法不存储实际数据，而是使用模型本身或单独的生成模型创建新的数据样本，模拟旧数据。这样可以实现持续学习，无需保留大量实际数据，优化内存使用，并可能保护隐私。在连续指令调优的背景下，一些创新方法体现了生成式重播，如LAMOL [184]、LFPT5

[153]、PCLL [265] 和 SSR [65],它们生成的伪实例是基于自然语言提示的。

2.3.2 正则化方法

根据它们所正则化的组成部分，正则化方法大致可以分为权重正则化(weight regularization)和特征正则化(feature regularization):

权重正则化(WeightRegularization) : 这种技术对影响先前任务的重要权重变化施加惩罚，从而保持在这些任务上的性能。常见的策略包括 L2正则化，它对权重的平方施加惩罚，以防止大幅度调整；

塑性权重整合(Elastic Weight Consolidation,EWC)[91], 根据计算出的重要性选择性地对影响过去任务的权重变化进行惩罚；以及 记忆感知突触 (Memory-Aware Synapses,MAS)[3],它会根据参数对任务性能变化的敏感度动态调整惩罚。此外， RecAdam [21]融入了EWC 的思想，引入了一个随时间衰减的系数，逐步整合过去知识的重要性。

特征正则化(Feature Regularization) : 这种方法旨在限制模型提取的特征，以防止新学习对从先前任务中学到的特征产生显著干扰。例如，IDBR [69] 和 CPFD [245] 等技术直接对特征施加约束，确保激活模式在任务之间保持稳定，从而维护一致的表示空间。

2.3.3 基于架构的方法

在终身学习中，基于架构的方法侧重于调整模型结构，以便无缝集成新任务，同时尽量减少对已获取知识的干扰。对于现有的大型语言模型(如LLaMA-65B[190]、GLM-130B [242]、PaLM540B [29]和GPT-4 [1]),这些技术尤为重要，因为完全微调这类大规模模型需要大量的计算资源。鉴于这些限制，寻求高效且成本效益高的终身学习策略在实践上是必要的。下面简要概述了六种基于架构的终身学习方法，并在图4中提供了说明：

·驱动提示调优[100]:在驱动提示调优中，会在模型的输入层插入可训练的、针对特定任务的提示，以引导其响应朝着期望的结果发展。这种方法通过直接将这些提示嵌入输入序列中实现，仅影响输入数据的初始处理过程。此类方法有 L2P[214]、CODA-Prompt [180]、SAPT [140]、ConvPrompt [167]、Q-Tuning [48]和Fwd-Prompt [267]等示例。

·前缀调优(Prefix Tuning)[105]: 这种方法涉及在Transformer 模型的每一层前面添加一组可训练参数，称为前缀。这些前缀作为上下文调整，针对特定任务调整模型的行为。与提示调优不同，前缀调优影响模型的多个层。值得注意的实现包括EPI[213]和MoCL[202]。

·LoRA(低秩自适应)[63]: LoRA在预训练模型的某些层中嵌入低秩矩阵，以适应其功能而无需全面的重新训练。它允许对特定模型组件进行有针对性的调整。使用LoRA 的方法包括Lee等人[96]、 C-LoRA[179]、 ConPET[181]、GLRL[262]、O-LoRA[209]、CoLoR[218]、InfLoRA[108]、SAPT[140]、MoRAL[234EKFAC[19]和I-LORA[164]。

·适配器(Adapters)[59]: 这是一种小型的两层前馈神经网络，具有瓶颈结构，插入到现有模型架构的各层之间。它们使得模型能够在保持预训练参数不变的情况下学习新的能力。例如， CPT [82]、 LAFT-URIEL [6]、DMEA [152]、TSS [84]、HOP [137] 和 SEMA [197]。

·混合专家(Mixture of Experts,MoE)[172]:MoE方法在推理时利用门控机制动态地从一组专家前馈神经网络中选择，根据当前任务进行。这使得模型能够将其架构的部分专门针对特定类型的任务进行优化，从而提高性能和可扩展性。例如，DEMix[50] 和ModuleFormer[175]。

·模型扩展[22]:这类方法包括重用现有模型组件或扩展模型架构以适应新信息和任务。这可能涉及添加新的层或模块，或者扩展现有组件以提高模型的容量和灵活性。值得注意的方法bert2BERT[17]、 Wang等人[203]、LLaMA Pro[219] 和SOLAR[89]。

2.3.4 基于蒸馏的方法

根据蒸馏目标的来源，可以将蒸馏方法分为三类：新数据、旧数据和伪旧数据：

·新数据蒸馏：这些技术涉及学生模型在具有新数据的教师模型指导下直接从新任务中学习。代表性的方法包括Learning without Forgetting(LwF)[106], 该模型能够在不遗忘旧类别的前提下适应新类别。在持续命名实体识别中，如ExtendNER [142]和CFNER [266]等方法解决了新旧实体重叠问题，它们利用旧模型为“其他”标记生成伪软标签，有助于学习新实体的同时保持旧知识。此外，在持续机器翻译中， Cao 等人[14]、COKD [170]、LFR[46]和CKD [245]等方法也采用了侧重于新数据的蒸馏策略。

·从旧数据蒸馏：这类方法利用通常存储在内存中的旧数据来引导学生模型通过教师模型的输出。例如，CRN [7]、CRL [263]、SCKD [210] 和 CEAR [264]。

·伪旧数据蒸馏：当保留旧训练数据不切实际时，L&R [226]、Wang等人的方法[206]、DnR [185]、PCLL [265]和 LFPT5[153] 等会生成合成旧数据。这些方法创建模拟旧数据分布的伪样本。这类方法常用于生成任务和命名实体识别中。

2.4 评测标准和数据集

我们总结了常用基准和数据集如下：(1)连续文本分类： CLINC150[94],BANKING77 [15],AGNews,Yelp,Amazon,DBPedia,Yahoo [254],HWU64 [120],(HL5Domains,Liu3Domains,Ding9Domains,SemEval14)[87],GLUE[196];(2) 连续命名实体识别：OntoNotes5 [60],12B2 [143],Few-NERD[36];(3) 连续关系抽取：FewRel[54],TRACRED[258];(4) 连续机器翻译： WMT 1,TED Talks 2;(5) 连续知识编辑：zsRE[34],FEVER[188],CounterFact [133];(6) 连续指令调优：(MNLI,QQP,RTE,SST2)GLUE [196],(WiC,CB,COPA,MultiRC,BoolQ)SuperGLUE[195],Naturallnstruction[138],SuperNI[212];(7) 连续对齐： HH-RLHF[183],Reddit TL;DR[194]。

3 方法：持续预训练

持续预训练[31,49,51,52,78,86,102,127,158,227,228,235,241]增强了大语言模型的内在知识，这一点在全量预训练成本高昂的情况下尤为重要。尽管相比于持续微调，关于持续预训练的研究相对较少，但它对于提升现有大语言模型的通用能力至关重要。持续预训练有三种类型： 连续垂直领域预训练[31,47, 49,78,102,127,157,158,227,228,235,241],目标是针对特定领域的持续学习，同时避免遗忘先前习得的专业知识； 连续语言领域预训练[6,23,45,71,217,229,230],专注于适应语言使用的演变；以 及连续时间领域预训练 [52,74,95,121,124,252,260],通过时间敏感数据更新模型，使其能够掌握最新的知识。

3.1 连续垂直领域预训练

持续垂直领域预训[31,47,49,78,102,127,157,158,227,228,235,241]是指连续在一系列特定领域的数据集上训练语言模型。这种方法确保了模型在多个垂直领域或任务中表现出色，同时保持了之前学到的知识。例如，在金融领域数据上的持续预训练使大语言模型能够更好地分析财务文本和数据[231]。在连续垂直领域预训练的实验研究主要集中在解决灾难性遗忘问题上[24,58,235]。作为开创性工作，Jin 等人[78]发现基于蒸馏的方法对于保持早期领域的下游性能最为有效。在此基础上，Mehta 等人[131]发现，在一系列任务上预训练的模型相比从头开始训练的模型，遗忘现象较少，突出了任务多样性的好处。Cossu 等人[31]进一步表明，持续预训练有助于缓解遗忘，支持了持续接触各种任务可以提高模型鲁棒性的观点。然而，Li等人[102]强调，灾难性遗忘仍然是一个重大挑战，并不能完全通过这种方法解决。

包括冷冻层、模块、 LoRA 和(IA)3在内的简单方法[113]。这些发现共同强调了解决灾难性遗忘的复杂性，以及在持续垂直领域预训练中需要创新方法的需求。关于持续垂直领域预训练的研究正在不断发展，涉及的技术包括但不限于经验回放[47,78,117,158]、参数高效的微调[47,78,112,178]、专家混合[50,73]、知识蒸馏[78,157]、模型扩展[17,89,158,219]、再加热[49]和数据选择[2,112,127]等。

3.1.1 参数高效微调

参数高效微调是一种旨在优化模型以适应特定任务而无需大量计算资源的技术。CorpusBrain++[47]通过采用背骨-适配器架构和经验回放策略，解决了现实世界中知识密集型语言任务的动态特性。Med-PaLM[178] 则将指令提示微调引入医疗领域，仅使用少数示例。这些方法强调了在适应专门领域的同时，有效微调策略对于保持跨多样化任务性能的重要性。

3.1.2 模型扩展

模型扩展涉及通过增加宽度和深度来增强预训练语言模型的架构，以提高从多个领域连续

数据流中获取和整合知识的效率。ELLE [158] 采用了一种保持功能不变的模型扩展策略，灵活地扩展现有预训练语言模型的大小。类似地，bert2BERT [17] 通过扩展其架构增强了基础BERT 模型，使其能够更好地处理新的和更复杂的数据，同时保留早期训练阶段的知识。遵循这些方法，LLaMA Pro [219] 扩展了Transformer块，并使用新的语料库进行微调，在一般用途、编程和数学相关的任务中表现出色。此外，SOLAR[89] 利用深度放大(包括深度方向的放大和持续预训练),能够在无需对训练和推理进行复杂调整的情况下，有效地提升大语言模型在各种NLP 任务中的性能。

3.1.3 重新加热(Re-warming)

在引入新数据集进行持续训练时，调整学习率是一个策略。Gupta 等人 [49]提出这种方法是为了防止在长时间训练过程中学习率下降过多，这可能会阻碍新数据的处理。实验结果表明，对模型进行重新加热不仅有助于更有效地适应新数据集，还能提高整体下游任务性能。

3.1.4 数据选择

数据选择在预训练中发挥着关键作用，其中使用了各种轻量级过滤器来保证数据质量[2,112]。这些过滤器包括基于启发式的方法(例如，语言和项目计数过滤)、基于分类器的方法[12]以及基于困惑度的技术[216]。例如，RedPajama-Data-v2数据集[30]就采用了超过40个质量指标来进行数据过滤和重采样，以提升数据选择的质量。最近，林等人[112]提出了RHO-1, 它使用了选择性语言建模 (Selective Language Modeling,SLM) 进行训练。SLM 通过评估每个令牌的梯度影响，识别并优先处理训练过程中最具影响力的部分，从而优先考虑那些导致损失函数更大变化的元素。另一种方法是LESS[225] 提出了一种低秩梯度相似度搜索算法，以高效地为定向指令调优选择最相关数据，通过精心挑选的数据子集进行训练，显著提高了模型性能。此外，马等人[127]提出了EcomGPT-CT, 它利用半结构化的电子商务数据来提升模型在特定任务上的表现。

EcomGPT-CT采用了数据混合策略，将通用预训练数据与领域特定的半结构化数据相结合，从而增强了其在特定领域的效果。

3.2 持续语言领域预训练

持续语言领域预训练[6,23,45,71,217,229,230]将预训练语言模型的概念扩展到连续整合新数据并适应不断演变的语言领域，同时不会遗忘先前的知识。关于持续语言领域预训练的研究主要关注自然语言[6,217,230]和代码语言[20,229]。持续语言领域预训练的研究主要集中在经验回放[45,71]、基于架构的方法[6, 23,175,229]以及再加热 (re-warming)[71] 等技术上。

3.2.1 基于架构的方法

基于架构的方法为增强LLMs在持续语言领域预训练中的适应性和效率提供了创新解决方案。 Yadav 等人[229]通过引入教师强制机制改进了提示调优，创建了一个提示池，引导模型在新任务上进行微调，并迫使模型在训练过程中遵循特定路径。Yang 等人[230]提出了CLL-CLIP 模型，它扩展了CLIP[160] 的语言理解能力，以实现对新语言的持续学习。他们采用了Token Embedding Initialization和Regularization来缓解灾难性遗忘。CLL-CLIP 包含一个可扩展的嵌入层，可以根据语言差异动态调整，从而无缝集成新令牌。 ModuleFormer[175] 和Lifelong-MoE[23] 都是基于架构的方法，它们利用MoE 来提升LLM 的效率和适应性。ModuleFormer 通过根据输入令牌激活特定模块，确保了目标处理。 Lifelong-MoE 通过定期预训练引入新的专家来动态增加模型容量，在少量样本和多任务学习场景中表现出色。这些方法共同展示了架构创新在解决持续学习挑战方面的潜力。

3.2.2 重新加热(Re-warminq)

重新加热策略涉及在开始处理新数据时暂时增加学习率，使模型能够更快地适应新语言。Ibrahim 等人[71]提出了一种连续预训练方法，结合了学习率 (LR) 重新加热、LR 重新衰减和数据重播。在他们的方法中，先进行LR重新加热，然后是LR重新衰减，即按照特定的时间表系统性地降低学习率。这个重新衰减阶段有助于模型在学习新语言后稳定下来，防止过度拟合最近的数据。这种方法与Gupta 等人提出的其他方法[49]相吻合，他们强调在持续垂直领域预训练期间调整学习率以保持模型有效性的重要性。

3.3 持续时间域预训练

持续时域预训练[52,74,95,121,124,252,260]涉及不断使用与时间相关的数据更新语言模型，以保持其准确性和相关性，随着新信息的出现。现有的研究[95,124,166]指出，由于LLMs 无法学习对时间变化敏感的新知识，它们的性能会随着时间下降。例如，基于2023年数据预训练的LLM 无法回答关于2024年事件的问题。

实证研究揭示了语言模型在时间适应方面面临的一些挑战。 Lazaridou 等人[95]发现，当用过去的数据训练的模型在测试未来数据时，性能会显著下降，这突显了大语言模型在时间泛化方面的困难。Rottger等人[166] 的研究也表明，尽管时间适应在掩码语言模型任务上略有改善，但与单独的领域适应相比，它对下游任务的性能提升并不显著。此外，Luu 等人[124]发现，尽管持续预训练有助于时间适应，但在时间相关的任务上，它不如针对特定任务的微调有效。11包括冷冻层、模块、 LoRA 和(IA)3在内的简单方法[113]。这些发现共同强调了解决灾难性遗忘的复杂性，以及在持续垂直领域预训练中需要创新方法的需求。关于持续垂直领域预训练的研究正在不断发展，涉及的技术包括但不限于经验回放[47,78,117,158]、参数高效的微调[47,78,112,178]、专家混合[50,73]、知识蒸馏[78,157]、模型扩展[17,89,158,219]、再加热[49]和数据选择[2,112,127]等CorpusBrain++[47]通过采用背骨-适配器架构和经验回放策略，解决了现实世界中知识密集型语言任务的动态特性。Med-PaLM[178] 则将指令提示微调引入医疗领域，仅使用少数示例。这些方法强调了在适应专门领域的同时，有效微调策略对于保持跨多样化任务性能的重要性。

3.3.1 模型扩展

模型扩展涉及通过增加宽度和深度来增强预训练语言模型的架构，以提高从多个领域连续数据流中获取和整合知识的效率。ELLE[158] 采用了一种保持功能不变的模型扩展策略，灵活地扩展现有预训练语言模型的大小。类似地，bert2BERT [17] 通过扩展其架构增强了基础BERT 模型，使其能够更好地处理新的和更复杂的数据，同时保留早期训练阶段的知识。遵循这些方法，LLaMA Pro [219] 扩展了

Transformer块，并使用新的语料库进行微调，在一般用途、编程和数学相关的任务中表现出色。此外，SOLAR [89] 利用深度放大(包括深度方向的放大和持续预训练),能够在无需对训练和推理进行复杂调整的情况下，有效地提升大语言模型在各种NLP 任务中的性能。

3.3.2 重新加热(Re-warming)

在引入新数据集进行持续训练时，调整学习率是一个策略。Gupta 等人 [49]提出这种方法是为了防止在长时间训练过程中学习率下降过多，这可能会阻碍新数据的处理。实验结果表明，对模型进行重新加热不仅有助于更有效地适应新数据集，还能提高整体下游任务性能。大多数现有方法都利用经验回放来减轻遗忘。除了体验回放外，Han 等人。[52]提出了事件时间推理的有效连续预训练框架（ECONET），该框架集成了有针对性的掩蔽和对比损失，以强调训练期间的事件和时间指标。具体来说ECONET采用掩码预测策略，其中与事件和时间相关的特定标记被掩码，以及判别器模型用于区分正确句子和损坏句子，从而增强时间推理。Zhao等[260]引入时间自适应微调，将模型的内部知识与目标时间同步不更改提供给模型的显式上下文信息。作为对这些方法的补充，TimeLMs[121] 是不断更新的语言模型，这些模型在历时性Twitter 数据上进行训练，以捕捉语言并随着时间的推移保持相关性。总之，这些方法展示了解决语言模型中持续学习和时间适应的挑战。

3.4 小结

持续的预培训通过更新他们的内部知识来增强 LLM，而不会产生高昂的成本。预训练。目前的研究跨越垂直、语言和时间领域，应对灾难性等挑战遗忘和时间适应。经验回放、知识提炼、参数高效等技术微调、模型扩展和重新预热已经显示出希望。尽管取得了这些进展，但仍面临重大挑战保持，特别是在保持一段时间内和各种任务的性能方面。未来的研究应重点关注关于减轻遗忘、改善时间泛化和开发高效、适应性强的创新方法用于持续模型性能的架构。

4 方法：持续微调

持续微调 [69， 110， 142， 184， 199， 207] 增强了 LLM 的内部知识，并使 LLM 适应特定的文本分类[69]、命名实体识别[142]、关系提取[199]、机器翻译等任务[14]或一般的生成任务，如指令调优[184]、知识编辑[207]以及与人类的对齐偏好[110]。我们在图 5 中提供了 7 个持续微调场景的图示。

4.1 连续文本分类

文本分类包括不同的方向，如意图检测、情感分类、主题分类和域分类。但是，过去的文本分类方法只能检测预定义的类别。在现实世界中，新类别可能会不断挑战已部署的模型。例如，COVID-19 大流行带来了许多“核酸检测”和“群体免疫”等新主题类别。因此，连续文本的出现分类使模型能够不断学习新数据并识别新出现的类别。这些方法可以大致分为以下几大类：基于蒸馏的[85,119]，基于回放的[7,103,118,182,192,193]，基于正则化 [19， 64， 69， 151， 274]、基于架构等 [16， 87， 147， 217， 223]。详细对比表1中提供了这些方法之间的方法。。

4.1.1 数据选择

lextciassincaion inciuaes amerent airecnons,sucn as intent aetecion,sentiment ciassincation,topic ciassincauon,ana 最近，林等人[112]提出了RHO-1, 它使用了选择性语言建模(Selective Language Modeling,SLM进行训练。 SLM 通过评估每个令牌的梯度影响，识别并优先处理训练过程中最具影响力的部分，从而优先考虑那些导致损失函数更大变化的元素。另一种方法是LESS[225] 提出了一种低秩梯度相似度搜索算法，以高效地为定向指令调优选择最相关数据，通过精心挑选的数据子集进行训练，显著提高了模型性能。此外，马等人[127]提出了EcomGPT-CT, 它利用半结构化的电子商务数据来提升模型在特定任务上的表现。EcomGPT-CT采用了数据混合策略，将通用预训练数据与领域特定的半结构化数据相结合，从而增强了其在特定领域的效果。

(g)Continual Alignment图5.连续微调场景的示例。在每个连续微调场景中，模型会依次学习任务 t-1,t, 和 t+1 (从左到右)。紫色和绿色盒子分别表示输入和输出。

4.1.2 基于蒸馏的方法

为了增强文本类别的区分度，CLASSIC [85] 使用了对比性集成蒸馏，通过对比损失增强了跨任务的知识迁移。此外， MSR [119] 提出了多策略再平衡方法，结合了余弦归一化、层次知识蒸馏和类别间margin 损失，以应对类别不平衡问题。

4.1.3 基于重放的方法

有几种方法整合了对比学习技术或结构化学习方法，以提高重放样本的质量和学习过程的稳定性。 SCN[118] 和 InfoCL [182] 优化了样本选择，并利用对比学习来改善表示恢复，对抗重放过拟合。这些方法有助于保持学习表示的一致性和相关性，解决了诸如数据不平衡和特定领域中罕见词汇等问题。

表 1.连续文本分类和连续命名实体识别的代表性方法比较。 PEFT表示是否利用参数效率微调方法进行模型训练。重放、正则化、蒸馏、架构是指第 2.3 节中总结的常用技术。

4.1.4 基于蒸馏的方法

为了增强文本类别的区分度， CLASSIC [85] 使用了对比性集成蒸馏，通过对比损失增强了跨任务的知识迁移。此外， MSR [119] 提出了多策略再平衡方法，结合了余弦归一化、层次知识蒸馏和类别间margin损失，以应对类别不平衡问题。基于重放的方法。有几种方法整合了对比学习技术或结构化学习方法，以提高重放样本的质量和学习过 integrates程的稳定性。SCN [118] 和 InfoCL [182] 优化了样本选择，并利用对比学习来改善表示恢复，对抗重放过 deep integ拟合。这些方法有助于保持学习表示的一致性和相关性，解决了诸如数据不平衡和特定领域中罕见词汇等问题。包括选择能最好体现先前任务本质的代表性样本，以及采用轻量级模型，在不断适应新信息的同时，不会丢失先前的知识。

4.1.5 基于正则化的方法

为了提高参数更新的效率，一些方法如PE[274] 、IDBR[69] 和EKFAC[19] 会选择性地更新一小部分参数，以减轻计算负担。这些方法确保学习过程在资源利用上既高效又能有效地整合新知识，同时避免覆盖之前任务中宝贵的信息。为了自动化正则化过程的调整，一些方法消除了手动超参数调优的需求，使模型能够自适应地在保留旧知识和获取新信息之间取得平衡，如CCFI [64]和Qian 等人[151]所示。

4.1.6 基于架构的方法

为了促进知识共享，已经提出了一些策略，例如层次聚类投影(HOP)[137] 中的层次覆盖投影、B-CL [87] 和CTR[83] 中的动态路由机制以及ADA[37] 。这些策略优化了在不同任务之间的知识转移和共享，从而提高了模型学习新任务时的效率和效果。

为了保护任务专有知识，一些研究引入了参数隔离机制，例如B-CL 的持续学习适配器[87]、 Transformer 组件的选择性激活/去激活、SCCL 中的实例级关系蒸馏[123]以及EPI 中的私有参数隔离[213]。这些方法有效地减少了新旧任务之间的干扰，能够在整合新任务的同时保持对旧任务的性能，从而解决了灾难性遗忘问题。

4.1.7 其他

除了持续的文本分类任务外，还有关注元学习文本分类和多语言文本分类的任务，例如Pasunuru 等人[147]和ENTAILMENT[223] 专注于提升元学习能力，即通过少量示例训练模型；CL-KD[16] 和LR ADJUST[217]则不断将新的语言融入现有模型中，在多语言环境下缓解了灾难性遗忘。

4.2 命名实体识别的持续演化

连续命名实体识别 (Continual Named Entity Recognition,简称CNER) 旨在适应性地识别新型实体类型，应对现实世界中新实体的动态出现。它涉及在包含这些新型实体的新标注数据集上进行增量训练，使模型能够逐步扩展其识别能力，包括这些新类别，同时不会遗忘之前学习的实体。例如，在句子“利物浦上周输给了切尔西”中，一个连续命名实体识别模型的目标是正确标记“利物浦”和“切尔西”为[体育团队],而非实体标记为[其他]。这种方法使得模型能够在其他上下文中适应识别新的实体类型，如[政治家]。除了灾难性遗忘的挑战外，持续命名实体识别还必须应对语义漂移问题[159,266]。当标签分类发生变化，例如从“其他”变为特定实体类型，或反之亦然时，就会发生语义漂移。这尤其具有挑战性，因为只有与当前任务相关联的实体才会被标记，而先前学习和未见过的实体都被标记为“其他”。现有的方法大致可以分为四类：迁移学习方法[26,142,245-247,255,266]、重播方法[13,125,226,238]、原型方法[27,93,159] 和架构方法[116,174,181]。这些方法的详细比较见表1。

4.2.1 基于蒸馏的方法

在一般的连续学习场景中，特征级知识蒸馏通常被用来在特征空间中对学生产生隐式知识约束。在连续命名实体识别中，知识蒸馏涉及将新训练样本输入教师模型，并使用由此产生的logits 来指导学生模型。这有效地利用了新训练样本中的旧样本进行隐式回放，从而对学生产生了明确的知识约束。作为先驱工作，ExtendNER[142] 考虑到不断涌现的命名实体的现实场景，将知识蒸馏引入命名实体识别，构建了一个连续命名实体识别框架。后续方法通过整合知识蒸馏技术，改进了解决由“其他”实体类型引起的语义漂移的问题，如DLD[247] 、RDP[246] 、CPFD[245] 等。此外，一些方法引入了新的视角或技术。

CFNER[266]建立了一个因果框架[149,268,271],以链接旧知识和新知识，并通过课程学习处理噪声标签。SpanKL[255] 则改变了范式，通过在span 级别建模连续命名实体识别，减少了标签冲突。 SKD-NER[26]通过融入强化学习，优化温度系数和权重的选择，以更好地生成软标签，进一步改进了蒸馏过程。

4.2.2 基于重放

尽管连续命名实体识别是一个逐词级别的任务，但存储的重放样本是句子级别，包含了实体的上下文信息。

为了更有效地利用重放样本来回顾旧实体，一些工作设计了不同的方法来提取旧知识。L&R[226] 使用生成模型产生伪样本，以增强对历史实体数据的训练。OCILNER[125] 利用重放样本计算旧类实体的中心，并采用对比学习在特征空间中聚类实体，从而提高实体之间的区分度。KD+R+K[238] 根据新旧实体的相似性聚合它们的特征表示，为新实体初始化表示，并增强新旧实体之间的关联。为了提高存储效率，KCN[13] 利用重放样本与类别中心之间的相似性，逐步修剪远离类别中心的旧样本，同时持续添加新样本。

4.2.3 原型法

与重播方法相比，原型方法通常使用聚类中心或类别均值来定义原型，避免直接使用旧样本，从而在一定程度上缓解了隐私和存储限制的问题。SDAPN [27]预先分配特征空间的部分给新类别，并利用新样本与旧类别原型之间的相似性来纠正偏差。ProtoNER [93] 将传统的线性分类器替换为来自隐藏层特征向量的原型，以细化分类过程。IS3[159] 通过将原型与去偏化的交叉熵损失相结合，对抗语义偏差，确保模型不会过度偏向新类别而忽视旧类别。

4.2.4 基于架构的方法

针对全模型微调导致的高资源成本问题，基于架构的方法[116,174,181]专注于修改模型结构，以支持持续学习而无需大量重新训练。ICE[116] 保持静态模型骨干，使用固定的实体分类器，并在训练过程中为新兴实体引入新的分类器。在推理阶段，这些分类器被统一起来，以确保全面的实体识别。 ConPET[181] 为每个任务使用不同的参数高效调整(PET) 模块，显著减少了调整开销，同时最小化了过拟合和遗忘。

表2:代表性的连续文本关系抽取和连续机器翻译方法之间的比较。 PEFT 表示是否使用参数高效微调方法进行模型训练。Replay、Regularization、Distillation 和Architecture 指的是第2.3节总结的常用技术。

4.3 持续关系抽取

连续关系抽取 (Continual Relation Extraction,CRE) 涉及更新关系抽取模型以识别新关系，同时保持对已学习数据的准确性。例如，对于句子"Lange was born July 23,1957,in lllinois", 关系抽取系统会识别“Lange“和"Illinois”之间的关系为“出生地的州或省份“。挑战在于，系统需要学习新关系，如“总部所在国家”,而不丢失现有关系。除了灾难性遗忘，连续关系抽取还面临两个挑战：(1)顺序敏感性[28,237]:指模型性能随任务引入顺序变化的现象。 (2)类似关系干扰[205,264]:当模型混淆相似关系，如“总部所在国家“和“总部所在州或省份“时，会出现问题。在持续关系抽取中，由于它们在处理新信息获取和旧知识保持方面的有效性，经验回放[32,53,62,263]被广泛采用。五种流行技术与经验回放结合使用：知识蒸馏[210,263,264]、关系原型[32,53,204,250]、对比学习[62,126,263,264]、元学习[145,221]和数据增强[126,154,205]。表2对这些方法进行了详细比较。

4.3.1 知识蒸馏

CEAR[264]采用了焦点知识蒸馏(FKD), 其专注于提升相似关系的重要性。而SCKD[210] 则强调使用伪样本进行序列蒸馏，以增强元学习能力。相比之下，CRL[263] 关注跨任务的一致关系表示学习，通过在内存维护中保持嵌入向量的对齐，确保嵌入空间的稳定性。

4.3.2 关系原型

关系原型是指在特征空间中的关系表示。作为早期工作， EMAR[53] 专注于使用关系原型进行记忆回放。类似地， RP-CRE[32] 也利用关系原型来细化样本嵌入。受EMAR[53] 和RP-CRE[32] 的启发 FEA[204] 的一个更简化变体通过快速适应和平衡调优过程进行操作。借助外部知识， KIP-Framework[250]将这些知识注入原型中以生成原型。

4.3.3 对比学习

对比学习的应用[72]各异，从关注数据分布和嵌入稳定性 (CRECL[62] 和CRL[263]) 到处理少量样本学习和过拟合问题 (CPL[126]), 以及增强类比关系的区别性(CEAR[264]) 。CRECL[62] 使用对比网络，它将给定实例与存储在内存模块中的每个候选关系的原型进行对比。对于对比式重播CRL[263] 使用它来训练记忆样本。类似地， CEAR[264] 在训练过程中结合使用对比学习和线性方法，前者有助于改善特征空间对齐，后者确保任务特定的决策边界。此外，CPL[126] 引入了基于边距的对比学习目标，以获得区分性的表示。

4.3.4 元学习

为了使模型能够快速适应新任务并减轻灾难性遗忘，MLLRE[145] 和CML[221] 都采用了元学习框架。一方面，MLLRE[145] 使用了基于梯度的元学习算法REPTILE[144],不涉及二阶导数。另一方面， CML[221] 将课程学习与元学习相结合，创建了一个动态的学习课程，根据任务难度优先级进行排序。主要区别在于，CML[221] 侧重于任务排序和构建学习课程的难度，而MLLRE[145] 直接优化元目标。

4.3.5 数据增强

数据增强被用来丰富训练数据，提高模型在任务间的泛化能力，特别是在资源匮乏的情况下。大多数方法使用外部数据[154]或生成样本[126,205]。ACA[205] 通过融入对抗性示例来增强模型的鲁棒性和泛化能力。此外， ERDA[154] 从包含维基百科句子的未标注语料库中选择有信息性的样本，以提供更多的关系知识，支持少量样本任务。借助大型语言模型， CPL[126] 引导它们生成多样且相关的样本，用于记忆增强。

4.4 持续机器翻译

持续机器翻译[14,16,41,46,67,68,170,217,253]旨在满足现实场景中多语言任务的需求，允许随着时间的推移添加新语言。持续机器翻译通常首先在通用领域语料库上进行训练，该语料库包含多种语言，然后通过针对新语言的领域内持续训练进行微调。目标是在保留初始语言知识的同时学习新语言。大多数连续机器翻译方法是单步增量语言学[14,16,41,46,67,68,170,253],少数是多步增量语言学习[16,217]。有几篇文章通过提出新的基准而对这一领域做出了贡献。专门用于评估多语言环境中的终身学习能力。Barrault等人[8]提供了英语-德语和英语-法语的训练、终身学习和测试数据集，以推动终身学习神经机器翻译的研究。相反，CLLE[251] 引入了一个以中文为中心的基准，其中包含测试模型处理密切相关语言和不同语系能力的任务，反映了实际需求。此外，连续机器翻译方法大致可以分为四类：基于蒸馏的方法[14,170,256]、基于正则化的[46,88,114]、基于架构的方法[9, 41,67,68,220]和其他方法[8,38,165,251]。这些方法之间的详细比较见表2。

4.4.1 基于蒸馏的方法

传统的NMT模型在处理持续或序列学习问题时，无法保持对先前学习知识的掌握。因此，有几种方法从动态知识蒸馏的不同方面进行创新，例如Cao 等人[14]和CKD[256]。此外，为了解决不平衡训练问题，COKD[170] 通过独特地整合动态更新的教师模型，使模型在训练样本上达到平衡。

4.4.2 基于正则化的方法

为了平衡神经机器翻译的持续学习目标，已经有许多不同的实现方式，例如通过正则化训练过程，使其尽可能接近既定模型[88],识别可能导致最小遗忘的参数更新[46],或者根据参数对特定任务或整体功能的相关性进行分类[114]。

4.4.3 基于体系结构的方法。

机器翻译中的基于体系结构的方法包括词汇结构[9,41,67]和模型结构[38,68, 220]。词汇结构指的是神经机器翻译 (NMT) 模型能够识别和生成的一组独特令牌或单词。这些令牌通常包括模型用于处理和翻译文本的语言单位，如单词、子词或字符。EVS 方法[67]通过根据语言间的熵值动态管理词汇表，优化嵌入空间，从而增强语言多样性，同时不扩大模型规模。类似地， Garcia 等人提出的方法[41]通过选择性替换词汇部分来提高嵌入效率，保持翻译质量的同时有效地整合新语言。

模型结构创新体现在动态资源分配机制和模块化适应性方面，这决定了模型处理不同语言元素(尤其是多语言翻译)的效率。F-MALLOC[220] 引入了一种内存分配模型，通过动态调整资源来适应新语言，从而支持可扩展和高效的训练。与此同时， KT[68] 将语言特定适配器融入到NMT 框架中，实现了无缝的知识迁移，使得模型能够在无需大量重新训练的情况下学习新语言，从而保持在多样语言范围内的性能。

4.5 持续调优指令

传统的自然语言处理(NLP) 机器学习范式假设目标任务是预定义且静态的，并且任务监督依赖于标记样本。这就提出了如何构建能够根据指令连续学习新任务的系统的问题。连续指令调优 (Continual Instruction Tuning)通过设计同一模型解决多种NLP 任务的不同指令来应对这个问题。早期使用GPT-2[161]的文献常常使用诸如数据集名称或特殊标记之类的简单指令[184]。在这篇综述中，我们将指令调优定义得更为广泛，涵盖了各种生成任务上评估的方法。

表3:代表性的持续指令调优、持续知识编辑和持续对齐方法之间的比较。PEFT 表示是否使用参数高效微调方法进行模型训练。 Replay、Regularization、Distillation 和 Architecture 指的是第2.3 节总结的常用技术。Chen等人[18]提出了一个全面的基准测试，称为连续指令调优(CoIN),用于评估现有模型在顺序指令调优范式中的性能。 ColN 考察了两个方面：指令跟随和一般知识。它包含涵盖8个任务类别的10个常用数据集，确保了指令和任务的多样性。连续指令调优方法大致可以分为三种主要方法：重播式[65,80,129,153,184,185,265]、正则化式[11,77,136,209,211]、梯度式[92,97]和架构式[43,48,84,109,128,162,168,208,236,257,273]。这些方法的详细比较见表3。

4.5.1 基于重放的方法。

这类方法包括生成式重放法[65,80,129,153,184,185,265]和经验回放缓冲区法 [164]。受到海马体记忆机制启发的生成重播[177],这篇奠基之作提出了一种新颖的方法，通过模拟人脑海马体—— 其在记忆形成和回忆中扮演关键角色。该模型在吸收新信息的同时高效保持先前知识，为解决灾难性遗忘问题设定了基础。在此基础上，LAMOL[184] 将生成重播直接内置于语言模型中。这种整合简化了架构，并允许动态伪样本生成，增强了记忆巩固，而无需额外计算开销。 LFPT5[153] 进一步优化了这种方法，利用提示调参快速适应新任务，仅需少量示例，显著降低了对数据的依赖，同时保持跨任务性能。此外，还有多种方法改进生成重播框架，如PCLL[265] 、HMI-LAMOL[129] 和SSR[65] 。还有一些方法遵循经验回放的传统设置，如1-LoRA[164]。

4.5.2 基于正则化的

正则化方法大致可以分为直接正则化[136,209]和间接正则化[11,77,211]两类。直接正则化是直接影响模型参数以保持先验学习的方法。例如， ARPER [136] 将自适应正则化直接融入训练过程，利用正则化项来直接缓解在学习新对话任务时对先前知识的遗忘。类似地，O-LoRA [209] 利用正交低秩适应(O-LoRA) 方法，它直接限制梯度更新与先前任务的子空间正交。

间接正则化利用任务之间的相似性和重要性等因素，对模型参数施加间接限制。例如， BiHNet [77] 利用双层超网络创建特定任务适配器，通过最小化任务干扰来间接保持过去知识。InsCL [211] 利用丰富数据的动态重播，通过重新引入过去任务的关键特征，间接促进持续学习。此外，SLM[11] 引入了动态重参数化机制，根据任务分布调整模型参数，确保每个任务的学习相互独立，从而减少重要历史信息的覆盖。

4.5.3 基于梯度的方法

在持续指令调优领域，有效管理知识转移和缓解灾难性遗忘是影响语言模型鲁棒性和灵活性的关键挑战。一些进展专注于创新的梯度操作技术来解决这些问题。Lee 等人[97]提出了一种方法通过增强不同任务之间的梯度对齐，以促进更好的泛化并最小化负迁移。相比之下，Korbak 等人[92]提出了一种框架，用于动态调整学习参数，以在微调过程中保持之前获取的知识。这些方法共同强调了复杂梯度策略在无需牺牲之前学习信息的情况下，优化语言模型在各种语言任务中的适应性的潜力。

4.5.4 基于架构的方法

基于架构的方法可以分为模型驱动的[43,208]、适配器驱动的[84,128,140,152,257] 和提示驱动的方法[48,109,162,164,168,236,273]。基于模型的方法会根据新信息动态调整整个网络架构，而无需重新训练整个系统。例如， TPEM 算法[43]采用了一种循环，包括剪枝以消除不那么有用的连接、扩展网络以适应新任务以及使用掩码来选择性地禁用某些路径，从而确保系统的效率和对当前任务的相关性。此外， Wang 等人[208]也利用了 (此处为缺失内容，可能是论文引用)。不确定性估计用于决定系统何时应自我更新，以及一个在线学习组件，可即时将新数据融入模型。

适配器方法选择性地添加新模块来管理知识保持和跨顺序任务的适应性。一些方法允许模型通过动态调整和优化其架构以适应每个新任务，例如ACM[257]、DMEA[152] 等。它根据新任务和过去任务的表现及相关性，融合新的模块并调整现有模块，使得扩展过程既目标明确又高效。此外， SAPT[140] 并非通过常规意义上的添加新层或模块进行扩展，而是通过使用灵活的注意力机制，将之前任务存储的不同参数集应用到新任务上。

基于提示的方法本质上是针对特定任务的调整器，它们指导预训练语言模型生成适合新任务的输出，同时保持在旧任务上的性能。这是通过有策略地修改或扩展模型的输入空间，将任务的核心本质封装在提示中实现的，这样可以保持核心模型参数不变。例如，LPT[109] 使用二元提示掩码来选择性地剪枝无效的提示向量，提高了计算效率并保留了关键的特定任务知识。相比之下， DYNAINST [141] 则融入了动态重播机制，以选择性地保留能提升学习效率的训练示例，从而优化跨任务的知识保持。此外，ProgPrompt [162] 创新性地按顺序连接特定任务的提示，以累积知识并促进向前迁移，同时不丢失先前信息。这些方法共同推动了基于提示策略的发展，提升了语言模型的可扩展性和效率，促进了终身学习。

4.6 知识编辑持续进行

持续知识编辑是语言模型终身学习的关键组成部分，旨在确保它们在遇到新信息或发现先前知识过时时能够保持适应性和准确性[70]。与基于固定知识的传统问答任务不同，持续知识编辑涉及通过知识三元组(如(头实体，关系，尾实体))更新模型的理解，这有助于精确定义模型知识库中所需进行的修改[207]。例如，当天文学定义发生变化时，可能需要将三元组(冥王星，属于，行星)更新为(冥王星，属于，矮行星)。该领域的研究传统上侧重于单步编辑技术[33,34,133,134,139],模型会经历一次重大更新，以修正或增强其知识库。然而，最近的方法[55,56,61,70,96]提倡持续和逐次的编辑过程，更符合终身学习的理念。这涉及随着时间的推移进行多次小幅度调整，使模型能够适应不断变化的现实需求，无需全面重新训练就能保持相关性和准确性。

持续知识编辑方法主要可以分为三大策略：外部记忆 (External Memorization) 、全局优化 (GlobalOptimization) 和局部修改 (Local Modification)。这些方法的详细比较见表3。207。(1)外部记忆方法，如GRACE[55] 和T-Patcher[70], 采用扩展策略来整合新数据。例如，GRACE 使用键值对动态存储新信息，使得模型无需完整重新训练即可访问最新数据。相比之下， T-Patcher 针对模型参数进行精确、定向的调整，以修正特定错误，类似于软件补丁修复bug, 从而确保模型输出的准确性和时效性。(2)全局优化涉及更为全面的更新。

受到海马体记忆机制启发的生成重播[177],这篇奠基之作提出了一种新颖的方法，通过模拟人脑海马体——其在记忆形成和回忆中扮演关键角色。该模型在吸收新信息的同时高效保持先前知识，为解决灾难性遗忘问题设定了基础。在此基础上，LAMOL[184] 将生成重播直接内置于语言模型中。这种整合简化了架构，并允许动态伪样本生成，增强了记忆巩固，而无需额外计算开销。LFPT5[153] 进一步优化了这种方法，利用提示调参快速适应新任务，仅需少量示例，显著降低了对数据的依赖，同时保持跨任务性能。此外，还有多种方法改进生成重播框架，如PCLL[265] 、HMI-LAMOL[129] 和SSR[65] 。还有一些方法遵循经验回放的传统设置，如I-LoRA[164]。

4.7 持续对齐

4.7.1 基于正则化的

正则化方法大致可以分为直接正则化[136,209]和间接正则化[11,77,211]两类。

置接正则化是直接影研模型参数以保持先验学习的方法。“例如，ARPER13 个将自适应正则化置接能人训练过程，利用正则化项来直接缓解在学习新对话任务时对先前知识的遗忘。类似地，O-LoRA[209] 利用正交低秩适应 (O-LoRA) 方法，它直接限制梯度更新与先前任务的子空间正交。‍

间接正则化利用任务之间的相似性和重要性等因素，对模型参数施加间接限制。例如， BiHNet [77]利用双层超网络创建特定任务适配器，通过最小化任务干扰来间接保持过去知识。InsCL [211] 利用丰富数据的动态重播，通过重新引入过去任务的关键特征，间接促进持续学习。此外， SLM[11] 引入了动态重参数化机制，根据任务分布调整模型参数，确保每个任务的学习相互独立，从而减少重要历史信息的覆盖。

4.7.2 全梯度的方法

”在持续指令调祝领域””有效管理知识转移和缓解发雄性遗忌是影响语言模型兽样准 es 和灵活性的关键挑战。一些进展专注于创新的梯度操作技术来解决这些问题。 Lee 等人[97]提出了一种方法，

通过增强不同任务之间的梯度对齐，以促进更好的泛化并最小化负迁移。相比之下， Korbak 等人[92]提出了一种框架，用于动态调整学习参数，以在微调过程中保持之前获取的知识。这些方法共同强调了复杂梯度策略在无需牺牲之前学习信息的情况下，优化语言模型在各种语言任务中的适应性的潜力。

4.5.4基于架构的方法。基于架构的方法可以分为模型驱动的[43,208]、适配器驱动的[84,128,140,152,257]和提示驱动的方法[48,109,162,164,168,236,273]。

基于模型的方法会根据新信息动态调整整个网络架构，而无需重新训练整个系统。例如，TPEM 算法[43]采用了一种循环，包括剪枝以消除不那么有用的连接、扩展网络以适应新任务以及使用掩码来选择性地禁用某些路径，从而确保系统的效率和对当前任务的相关性。此外，Wang 等人[208]也利用了 (此处为缺失内容，可能是论文引用)。

持在旧任务上的性能。这是通过有策略地修改或扩展模型的输入空间，将任务的核心本质封装在提示中实现的，这样可以保持核心模型参数不变。例如，LPT [109] 使用二元提示掩码来选择性地剪枝无效的提示向量，提高了计算效率并保留了关键的特定任务知识。相比之下， DYNAINST [141] 则融入了动态重播机制，以选择性地保留能提升学习效率的训练示例，从而优化跨任务的知识保持。此外，ProgPrompt [162] 创新性地按顺序连接特定任务的提示，以累积知识并促进向前迁移，同时不丢失先前信息。这些方法共同推动了基于提示策略的发展，提升了语言模型的可扩展性和效率，促进了终身学习。

4.8 知识编辑持续进行

该领域的研究传统上侧重于单步编辑技术[33,34,133,134,139],模型会经历一次重大更新，以修正或增强其知识库。然而，最近的方法[55,56,61,70,96]提倡持续和逐次的编辑过程，更符合终身学习的理念。这涉及随着时间的推移进行多次小幅度调整，使模型能够适应不断变化的现实需求，无需全面重新训练就能保持相关性和准确性。

持续知识编辑方法主要可以分为三大策略：

外部记忆 (External Memorization) 、全局优化 (Global Optimization) 和局部修改 (Local Modification)。这些方法的详细比较见表3。207。(1)外部记忆方法，如GRACE[55] 和T-Patcher[70], 采用扩展策略来整合新数据。例如， GRACE 使用键值对动态存储新信息，使得模型无需完整重新训练即可访问最新数据。相比之下， T-Patcher 针对模型参数进行精确、定向的调整，以修正特定错误，类似于软件补丁修复bug, 从而确保模型输出的准确性和时效性。(2)全局优化涉及更为全面的更新。

4.9 持续对齐

大型语言模型中的持续对齐对于确保这些模型与人类保持一致至关重要，贯穿其整个生命周期的价值观和社会规范。传统上，对齐是一个一步到位的过程，其中 LLM在预训练和指令调整阶段后对齐[173]。然而，作为需求和期望人工智能系统不断发展，越来越需要采用多步骤对齐方法[248,249,261]，定期重新调整模型以适应新的道德标准和社会价值观。对齐率，这是指使模型与人类价值观保持一致并可能损害其一般性之间的权衡性能，是这一过程中的关键考虑因素[110]。持续对齐可以分为两个主要领域：价值对齐[110,248,249]和安全对齐[150, 243, 261].表 3 提供了这些方法之间的详细比较。（1）在价值对齐中，重点是确保模型的响应符合道德准则，而不会失去以前获得的能力。CPPO [249]等技术实施了加权策略，以平衡新的伦理优先事项与现有知识。COPR [248] 通过动态调整正则化来解决价值对齐背景下的灾难性遗忘基于新的和历史的偏好。同时，Lin等[110]提出模型平均以有效管理对齐税，优化保持性能和遵守更新值之间的平衡。(2)安全对齐专注于保护 LLM 处理的数据的完整性和安全性。它涉及防止有害信息永久化和防止数据泄露的策略。Zhao等[261]有开发了一种遗忘过滤器技术，该技术在模型更新期间优先考虑内容的安全性。詹等人[243]演示最小微调可以轻易地损害已建立的安全措施，突出显示持续需要健全的保护机制。加强 LLM 防止潜在的滥用和不断演变的安全性正如Lermen等[98]和Qi等[150]所指出的那样，威胁、正在进行的研究和方法创新至关重要。这些努力确保了 LLM 与新的安全协议保持一致，它们不会受到新形式的攻击。

4.10 小结

在持续的预培训的基础上，增强了LLM的内部知识，并进一步进行了持续的微调使这些模型适应特定任务，例如文本分类、命名实体识别、关系提取、机器翻译和指令调整。蒸馏、重放、正则化、基于架构和基于梯度的方法用于解决灾难性遗忘和任务干扰等挑战。尽管在取得进步的同时，仍然存在重大挑战，特别是在保持长期绩效和资源效率方面。

图 6.两种终身学习场景的例证

未来的研究应侧重于创新解决方案，以减轻遗忘，增强任务适应性，并发展高效、可扩展的架构，可在各种任务中实现持续性能。

·灾难性遗忘(Catastrophic Forgetting):这是终身学习的核心挑战，新信息可能会抹去模型之前学到的内容。随着LLMs 不断接收到新的数据，如何确保它们在吸收新知识的同时不会丢失过去有价值的信息是一个关键问题[130]。

·塑性-稳定性困境：在塑性(学习新信息的能力)和稳定性(保持旧信息的能力)之间找到合适的平衡至关重要[135]。这种平衡影响模型获取特定领域知识(如医学信息)的同时保持其广泛的一般能力。此外，“对齐税”概念[110]突显了训练LLMs以符合人类价值观的挑战，同时又不损害其在推理和规划等领域的功能。目标是增强安全性和与伦理规范的一致性，而不削弱模型的功能有效性。

·高昂的计算成本 ：全量微调大型语言模型(LLMs), 尤其是参数量达到数十亿级别的模型，其计算需求可能高得无法承受。

·模型权重或预训练数据不可用：由于隐私问题[98,243]、专有限制或商业许可，原始训练数据或模型权重通常无法获取，从而无法进行进一步的微调。

5 方法论：外部知识

持续的预培训和微调对于LLM的终身学习至关重要。但是，随着LLM 的规模越来越大，更强大的是，两个新兴方向在为LLM提供新的外部知识方面越来越受欢迎

而不修改其参数。本调查将基于检索的终身学习和基于工具的终身学习视为两者是实现LLM终身学习的有前途的方法。图 6 中提供了示意图。

5.1 基于检索的终身学习

为什么LLM 需要检索？基于检索的终身学习满足了对大语言的迫切需求

从外部来源获取和整合最新知识的模型[5,81,191]。作为世界的信息

继续快速扩展和演变，在历史数据上训练的静态模型很快就会过时，无法理解或生成有关新发展的内容。例如，考虑一个场景，即一个重要的医疗突破是在模型的最后一次训练更新后宣布的。在这种情况下，从全面的数据库或不断更新的平台（如维基百科）变得非常宝贵。这些外部来源提供庞大的当前知识宝库，为增强静态性质提供了重要的补充资产预训练的LLM [222， 259]。

如何检索？实施这种方法的核心是检索增强生成（RAG），它协同地将 LLM 的深度学习功能与外部数据的动态检索相结合。RAG 型号在生成文本之前，首先使用检索器组件获取相关信息，从而确保内容既更新又符合上下文。此过程不仅丰富了模型的输出，而且还丰富了模型的输出显着扩展了其对较新领域和主题的适用性。我们介绍了几种强调基于检索的方法的适应性和有效性如下：密集通道检索（DPR） [81] 优化通过在密集的向量空间中对查询和文档进行编码来检索过程，从而实现更准确的语义匹配。Trivedi等[191]提出的由思维链（IRCOT）引导的交错检索，在生成过程中嵌入检索步骤。此方法可动态调整检索到的信息随着反应的形成，这在复杂的对话或多回合互动中特别有益。树Kim等[90]开发的澄清（TOC）结构以分层树格式检索知识，在不同级别的查询复杂度下实现精确和相关的信息检索。江等[76]的前瞻性主动检索增强生成（FLARE）主动更新检索数据库以包含最新信息，确保模型的响应及时且知情。自我反省Asai等[5]的Retrieval-Augmented Generation（Self-RAG）利用反馈回路，模型的输出直接影响和完善未来的检索查询，促进持续的自我改进。

5.2 基于工具的终身学习

为什么LLM 需要工具？大型语言模型（LLM）基于工具的终身学习源于必要性将其功能扩展到静态知识之外，并使它们能够与环境进行动态交互[66, 155, 156].在实际应用中，模型执行涉及外部操作的任务通常至关重要直接的文本生成或解释。例如，负责提供实时财务的 LLM建议可能需要访问和处理最新的股票市场数据，使用分析工具来预测趋势或与用于获取特定于客户端的信息的数据库。这样的场景不仅要求模型理解和生成语言，但也要有效地利用外部计算工具，反映人类使用工具的能力增强认知任务[4]。如何使用工具？配备工具的LLM 的开发，通常被称为“工具学习”，改变了这些从静态知识库到能够执行复杂计算任务的动态系统的模型以及与各种API 和软件环境进行交互。这种转变是通过框架实现的旨在教授 LLM 如何有效地集成和利用不同的工具。例如，Chameleon [122] 合成通过利用 LLM、可视化模型、搜索引擎和自定义 Python 函数。类似地，ToolAlpaca 框架 [187] 通过多智能体仿真环境，增强了模型的一般工具使用能力。其他值得注意的框架包括孔子[40]，它采用多阶段学习过程加上反馈机制来完善LLM和GPT4Tools的工具使用熟练程度[233]，集成了多个外部工具以扩展功能预训练模型的覆盖范围。此外，PIBench [148] 和 ToolBench [156] 等更复杂的工具数据集具有旨在提供一个结构化的环境来训练和评估 LLM 的工具使用能力，拓宽了这些模型在实际应用中可以实现的目标的边界。

5.3 总结

建立在持续的预训练和微调的基础上，增强了LLM 的内部知识，为 LLM 配备了通过基于检索和基于工具的终身学习，外部知识大大扩展了他们的能力。

基于检索的方法通过整合实时信息来确保模型保持更新。基于工具的方法使LLM 能够与外部计算工具和 API 进行交互。尽管取得了进步，但挑战依然存在无缝高效地集成这些技术。未来的研究应侧重于改进检索机制，改进工具集成框架，并制定全面的基准来评估在LLMs中融入外部知识。

6 讨论与结论

6.1 现有挑战

优化大型语言模型的终身学习之旅面临着许多重大挑战这源于这些系统的基本特征：

• 灾难性遗忘：这是终身学习的核心挑战，因为新信息可以覆盖模型之前学到了什么。由于 LLM 会不断更新新数据，确保它们保留从过去的培训中获得的宝贵知识，而不会将其丢失到新的和可能不相关的信息中，这仍然是一个关键问题[130]。

• 塑性-稳定性困境：在可塑性（学习新的能力）之间找到正确的平衡信息）和稳定性（保留旧信息的能力）至关重要[135]。这种平衡会影响模型的获取特定领域知识（如医学信息）的能力，同时保持其广泛的基础一般能力。此外，对齐税的概念[110]凸显了培训LLM的挑战在不损害他们在推理和规划等领域的能力的情况下，与人类价值观保持一致。目标是在不削弱模型功能的情况下提高安全性和与道德规范的一致性有效性。

• 昂贵的计算成本：对 LLM 进行全面微调的计算需求，尤其是对于模型具有数十亿个参数，可能会高得令人望而却步。

• ModelWeights 或预训练数据不可用：通常，原始训练数据或模型权重为由于隐私问题[98,243]、专有限制或商业原因，无法进一步完善许可证。

6.2 当前趋势

现有挑战的突出之处在于，大型语言模型的终身学习发展受到其训练高计算成本和强大能力的显著影响。这导致了终身学习方法的几个新趋势：

·从特定任务到一般任务：研究重点已明显转向更一般化的任务，这些任务扩展了模型在不同领域的实用性。这种向诸如指令调优[18]和知识编辑[207]等一般任务的转变，利用了大语言模型的强大泛化能力，使得它们能够在无需为每个专门任务进行大量再训练的情况下处理各种挑战。

·从全量微调到部分微调：鉴于全量微调大型语言模型所需的巨大资源，越来越多地倾向于使用部分微调策略。例如，Adapter 层[59]、提示调整[100]和LoRA[63] 方法只会调整一小部分参数，保留核心模型的同时，有效地实现了对新数据和任务的适应性。

·从内部知识到外部知识：为了克服频繁内部更新的局限性，越来越多地倾向于利用外部知识源。检索增强生成(Retrieval-Augmented Generation,[101])和工具式学习(Tool-based Learning,[155]) 等策略使得LLMs 能够动态地访问和利用当前外部数据。这种方法不仅提升了模型的解决问题能力，还实现了在最小化再训练的情况下持续学习。

6.3 后续步骤

随着语言模型 (LLMs) 的能力增强、计算成本上升以及应用场景拓宽，未来的终身学习将致力于赋予这些模型超越文本模态的更通用能力，同时降低计算开销。

降低成本并处理更具现实性的场景。以下是三个有前景的着力点，有望推动这一领域取得显著进展：

·多模态终身学习：将文本以外的多种模态(如图像、视频、音频、时间序列数据和知识图谱)整合到终身学习范式中，是一个快速发展的研究领域[18,57]。这种方法旨在开发出更全面、更灵活的模型，能够处理和理解更多样化的数据类型，模拟人类类似的学习能力，适应各种感官输入。

·高效终身学习：为了管理训练和更新大型语言模型(LLMs) 所需的计算需求，研究人员正在探索更有效的策略。这些策略包括利用模型剪枝[186]来消除不必要的参数，模型融合[44]来整合知识，以及模型扩展[89,219],在无需大量重新训练的情况下适应性地增加容量。此外，利用当前最先进的LLMs 的上下文学习能力也颇具前景，这些模型支持长达1000万令牌的广泛上下文。例如，Gemini 1.5 Pro[163]仅凭参考材料就能以高精度进行语言翻译，模拟人类的学习环境，展示了其潜力。

·通用终身学习：该领域的最终目标是使LLMs能够主动获取新知识，并通过与其环境的动态交互进行学习，而不仅仅是静态数据集[200]。融合强化学习、基于代理的系统和体感Al的原则可能推动真正通用人工智能的发展。这一雄心勃勃的方向旨在模拟人类的自然终身学习能力，促进对世界的更深入、更具直觉的互动。

6.4 结论

总之，本调查系统地将现有研究归类为12种终身学习场景，并对方法论进行了全面探讨。我们的分析强调了在管理灾难性遗忘、确保计算效率以及在知识获取中保持特异性与泛化之间微妙平衡的重要性。随着领域不断发展，这些高级策略的整合将在塑造下一代Al系统中发挥关键作用，助力它们更接近实现真正的人类式学习和适应能力。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业