大型语言模型终身学习综述

发布日期：2024-06-17 19:58:02 浏览次数： 1700

曾俊豪 *,中国华南理工大学仇胜杰 *,中国华南理工大学石成铭 *,中国华南理工大学

摘要随着大型语言模型 (LLMs) 在各个领域应用的扩展，它们适应数据、任务和用户偏好的能力变得至关重要。传统的静态数据集训练方法无法应对现实世界信息的动态性。终身学习(或持续学习)通过使LLMs 在整个运行生命周期中持续学习和适应，解决了这个问题，它能够整合新知识，同时保持已学习的信息，防止灾难性遗忘。我们的调查探讨了终身学习的现状，将策略分为两类，取决于新知识如何融入：内部知识，LLMs 通过全量或部分训练将新知识融入参数；外部知识，它将新知识作为维基百科或API 等外部资源，而不更新模型参数。我们的调查的主要贡献包括：(1)提出一种新颖的分类体系，将广泛的终身学习文献划分为12种场景；概括所有终身学习场景中的常见技术，并将现有文献分类到不同的技术组别；(3)强调了模型扩展和数据选择等新兴技术，这些在LLMs 出现之前的研究较少涉及。我们的资源可在https://github.com/qianlima- lab/awesome-lifelong-learningmethods-for-Ilm上获取。

概念：·计算方法论一自然语言处理(Natural Language Processing,NLP)

关键词和短语： 终身学习、大型语言模型、灾难性遗忘

郑俊豪，邱胜杰，施成铭，马千力。2024年。终身学习大型语言模型：综述。卷1,第1期(2024年6月),

https://doi.org/XXXXXXX.XXXXXXX

1引言

2终身学习简介

2.1问题陈述

2.2评价指标

2.3常用手法

2.4评测标准和数据集

3方法：持续预训练

3.1连续垂直领域预训练

3.2持续语言领域预训练

3.3持续时间域预训练

3.4小结

4方法：持续微调

4.1连续文本分类

4.2姓名实体识别的持续演化

4.3持续关系抽取

4.4持续机器翻译

4.5持续调优指令

4.6知识编辑持续进行

4.7持续对齐

4.8知识编辑持续进行

4.9持续对齐

4.10小结

5方法论：外部知识

5.1基于检索的终身学习

5.2基于工具的终身学习

5.3总结

6讨论与结论

6.1现有挑战

6.2当前趋势

6.3后续步骤

6.4结论

7鸣谢

8参考文献

1 引言

随着大型语言模型(LLMs)[1,29,163,190,242]在各个领域应用的扩展，这些模型适应数据、任务和用户偏好的持续变化的能力变得至关重要。传统的训练方法，依赖于静态数据集来训练LLMs, 越来越难以应对现实世界信息的动态性[259]。终身学习(也称为连续学习或增量学习)[201],即LLMs 在其整个运行生命周期中持续且适应性地学习的能力，通过整合新知识来应对这一挑战。*前三名作者对这项研究贡献相同。

1.终身学习示例：人类可以逐步学习新技能，如走路、骑自行车和驾驶汽车。同样，终身学习的目标是使LLMs 具备新的语言、领域知识和信息。

并能够保留之前习得的信息，从而避免了灾难性遗忘的问题[130]。图1展示了终身学习的一个示例。

本调查深入探讨了终身学习的复杂领域，根据新知识的整合方式将策略分为两大类：内在知识和外在知识。

每个类别包含独特的方法，共同致力于提升LLMs 在各种场景下的适应性和效率。我们在图2中提供了LLMs 终身学习方法的分类学。

内部知识组 (LLMs 通过完整或部分训练将新知识融入参数)包括策略，如持续预训练[20,45,78,121,158]和持续微调[69,110,142,184,199,207,270]。例如，在工业应用中，常采用持续垂直领域预训练 [47,178],企业会定期使用来自金融等行业的领域特定数据来重新训练LLMs。尽管这提高了在特定领域的性能，但也可能削弱模型的通用知识库，突显了在专业适应性和知识保持之间维持平衡的挑战。持续微调涵盖了针对特定场景的方法，如文本分类[69]、命名实体识别[142]、关系抽取[199]和机器翻译[14],以及任务无关的方法，如指令调优[184]、对齐[110]和知识编辑[207]。此外，利用人类反馈的强化学习[183]也被用于持续对齐，以确保LLMs 遵循诸如安全性和礼貌性的人类价值观[98,150],这凸显了所谓的“对齐成本”[110],即过于专注于特定价值可能会牺牲模型的通用能力。

外部知识 (External Knowledge) 将新知识作为外部资源(如维基百科或API) 融入模型，而无需更新模型参数。这包括基于检索的终生学习[81]和基于工具的终生学习[155],它们利用外部数据源和计算工具来扩展模型的功能。基于检索的方法，如检索增强生成[5,76,81,90,191],通过从维基百科等外部数据库提供上下文相关、准确且最新的信息，提升文本生成的质量，确保模型的输出随时间保持相关性。另一方面，基于工具的学习类似于人类使用工具[4],模型学习利用外部计算工具，从而扩展其问题解决能力，而无需直接修改核心知识库。

图 2 .LLMs 终身学习方法的分类。

本文通过对这些群体及其各自的类别进行深入剖析，旨在强调将终身学习能力融入到LLMs ( 大型语言模型 ) 中，从而提升其在现实应用中的适应性、可靠性和整体性能。通过解决终身学习所面临的挑战，并探索这一领域的创新，本调查旨在推动更强大、更具多样性的LLMs 的发展，使其能够在不断演变的数字环境中茁壮成长。

本调查与现有研究的区别。近年来，终身学习已成为 一 个日益热门的研究课题。大量调查已经探讨了神经网络的终身学习[10,35,39,82,132,146,169,176,189,201,222,232,239,240,259,272]。大多数现有调查主要集中在卷积神经网络 (CNN) 的终身学习上[10,35,132,146,201,239,272]。它们考察了 CNN 的终身学习的各种场景，包括图像分类[10,35,146,201,272]、分割[239]、目标检测[132]、自主系统[169]、机器人技术[99]以及智慧城市[232]。此外，一些调查也探讨了图神经网络的终身学习[39,189,240,244]。然而，关注语言模型的终身学习文献相对较少[10,79,82,176,222,259]。 Biesialska 等[10]是关于自然语言处理(NLP) 领域早期的终身学习调查，但仅关注词和句子表示、语言建模、问答、文本分类和机器翻译的终身学习。 Ke 等人[82]关注的终身学习场景包括情感分类、命名实体识别和摘要，还讨论了知识转移和跨任务类别分离的技术。[79,176,222,259]是与本研究密切相关的四篇近期调查。Zhang等人[259]对将LLMs 与不断变化的世界知识对齐的技术进行了全面回顾，包括持续预训练、知识编辑和检索增强生成。Wu 等人[222]从三个方面重新审视了终身学习，包括持续预训练、持续指令调优和持续对齐。 Shi 等人[176]从两个方向审视LLMs 的终身学习，即垂直方向(或垂直连续学习),即从一般能力向特定能力的持续适应，以及水平方向(或水平连续学习),即跨时间域的持续适应。Jovanovic 等人[79]回顾了几种实时学习范式，

包括持续学习、元学习、参数高效学习和专家混合学习。尽管最近的综述[79,176,222,259]收集了最新的终身学习文献，但它们都没有涵盖连续文本分类、连续命名实体识别、连续关系抽取和连续机器翻译等场景，对连续对齐、连续知识编辑、基于工具的终身学习和基于检索的终身学习的讨论也很少。据我们所知，我们是第一个全面系统地审视LLMs 的12个场景下的终身学习方法的调查。本调查的贡献。我们的调查的主要贡献包括‍

·新颖分类法：我们提出一个详尽而结构化的框架，将大量的终身学习文献划分为12个场景(如图2所示)。

·常用技术：我们在第2.3节中概述所有终身学习场景中的常用技术，并在每个场景下将现有文献分类到不同的技术组中(例如，表1、表2、表3)。

·未来方向：我们强调了模型扩展(Section 3.1.2)和数据选择(Section 3.1.4)等一些在大模型时代之前较少探索的新兴技术。

本调查的组织结构。本文的其余部分按照以下方式组织。第2节介绍了问题陈述、评估指标、常用技术、基准和终身学习的数据集。第3节、第4节和第5节分别探讨了连续预训练、持续微调和基于外部知识的终身学习现有技术。第6节讨论了使用大型语言模型进行终身学习面临的现有挑战、当前趋势以及未来发展方向，并对本调查进行了总结。

2 终身学习简介

2.1 问题陈述

形式上，终身学习的目标是从一系列任务{D(1),D(2),…,D(T)} 中学习语言模型fD:x→y, 其中第t 个任务 D(t)={(x(t),y(t))} 包含输入x(t) 和目标输出y(t) 。输入x和y都是自然语言。对于生成任务如问答，x 和y表示问题和答案；在机器翻译中，x和y代表源语言和目标语言；在文本分类中， x和y 分别代表输入文本和类别标签名称。在自回归语言模型的预训练任务中，x 表示一个令牌序列[x1,x2,…,xn-1], 而y则对应于每个令牌是原始输入中下一个令牌的序列，[×2,x3,…,xn]。

2.2 评价指标

可以从三个维度来评估持续学习的有效性：迄今为止学到的所有任务的整体性能、先前任务的稳定性和适应新任务的可塑性。

·总体测量：(1)平均准确度(AA, 数值越高越好)是指模型在当前学习的所有任务上的平均性能。正式定义为，当模型学习了t 个任务时的平均准确度为：

(1) 其中at 表示在学习了t 个任务后，在任务i 上的性能得分。我们假设性能得分越高，性能越好。 (2)平均增量精度(AIA, 分数越高越好)是通过计算得出的。

图3:LLMs 用于终身学习的四种常见技术类别。

作为学习每个任务后平均准确度的平均值。假设总共有 T 个任务，我们有

与AA 相比，AIA在学习每个任务时捕获了历史变化。

·稳定性测量：（1）遗忘测量（FGT，越低越好）评估每个旧任务的平均性能下降。性能下降定义为其先前获得的最大性能与其当前性能之间的差值。从形式上讲，学习t任务后的遗忘度量定义为

遵循：

(3)

其中max;∈{i,i+1,…,t}(aj,i) 表示在学习任务i之后，任务 j的最大性能，而 at,表示学习了t个任

务后任务 i的性能。(2)后向迁移(Backward Transfer,越高越好)评估每个旧任务的平均性能变化。性能变化定义为当前性能与其初始学习时的性能之差。形式上，学习了 t个任务后的后向迁移定义为：

BWT=\frac{1}{|\mathcal{T}_ol}\sum _{j \in \mathcal{T}_o}(\text{current

其中 T0是所有旧任务的集合。

(4)

·弹性度测量：前馈迁移(FWD, 值越高越好)评估在学习每个新任务后的平均性能提升。该指标通过计算任务初次学习时的初始性能与仅在这个任务上进行训练且无先验知识的模型的性能之差来确定改进。形式化地，学习了t个任务后的前向迁移定义为：

其中 äi 是仅在 D（i）上训练的随机初始化模型的性能。

2.3 常用手法

现有的终生学习方法大致可以分为四类：

重播法(replay) 、正则化法(regularization)、基于方法的架构，基于方法的蒸馏法 (distillation) 。这四类终生学习方法的示例如图3所示

图4:基于架构的终生学习方法(LLMs) 的六类。

2.3.1 基于重放的方法

根据数据回放的方式，基于重放的方法主要分为经验回放(Experience Replay)和生成式回放 (Generative Replay)。

·回放经验 (Experience Replay): 这种方法涉及保留先前遇到的一小部分数据或这些数据的简化表示，这些数据会在训练新任务时周期性地重新融入。通过让模型再次接触旧数据，这一技术有助于维持其在先前任务上的性能，强化现有知识。例如，在持续预训练的背景下，[47,78,117,158]在训练阶段系统性地引入领域特定的数据集，以刷新模型的记忆，使其学习在不同领域更加稳定。

·生成式重播(Generative Replay):这种方法不存储实际数据，而是使用模型本身或单独的生成模型创建新的数据样本，模拟旧数据。这样可以实现持续学习，无需保留大量实际数据，优化内存使用，并可能保护隐私。在连续指令调优的背景下，一些创新方法体现了生成式重播，如LAMOL [184]、LFPT5

[153]、PCLL [265] 和 SSR [65],它们生成的伪实例是基于自然语言提示的。

2.3.2 正则化方法

根据它们所正则化的组成部分，正则化方法大致可以分为权重正则化(weight regularization)和特征正则化(feature regularization):

权重正则化(WeightRegularization) : 这种技术对影响先前任务的重要权重变化施加惩罚，从而保持在这些任务上的性能。常见的策略包括 L2正则化，它对权重的平方施加惩罚，以防止大幅度调整；

塑性权重整合(Elastic Weight Consolidation,EWC)[91], 根据计算出的重要性选择性地对影响过去任务的权重变化进行惩罚；以及 记忆感知突触 (Memory-Aware Synapses,MAS)[3],它会根据参数对任务性能变化的敏感度动态调整惩罚。此外， RecAdam [21]融入了EWC 的思想，引入了一个随时间衰减的系数，逐步整合过去知识的重要性。

特征正则化(Feature Regularization) : 这种方法旨在限制模型提取的特征，以防止新学习对从先前任务中学到的特征产生显著干扰。例如，IDBR [69] 和 CPFD [245] 等技术直接对特征施加约束，确保激活模式在任务之间保持稳定，从而维护一致的表示空间。

2.3.3 基于架构的方法

在终身学习中，基于架构的方法侧重于调整模型结构，以便无缝集成新任务，同时尽量减少对已获取知识的干扰。对于现有的大型语言模型(如LLaMA-65B[190]、GLM-130B [242]、PaLM540B [29]和GPT-4 [1]),这些技术尤为重要，因为完全微调这类大规模模型需要大量的计算资源。鉴于这些限制，寻求高效且成本效益高的终身学习策略在实践上是必要的。下面简要概述了六种基于架构的终身学习方法，并在图4中提供了说明：

·驱动提示调优[100]:在驱动提示调优中，会在模型的输入层插入可训练的、针对特定任务的提示，以引导其响应朝着期望的结果发展。这种方法通过直接将这些提示嵌入输入序列中实现，仅影响输入数据的初始处理过程。此类方法有 L2P[214]、CODA-Prompt [180]、SAPT [140]、ConvPrompt [167]、Q-Tuning [48]和Fwd-Prompt [267]等示例。

·前缀调优(Prefix Tuning)[105]: 这种方法涉及在Transformer 模型的每一层前面添加一组可训练参数，称为前缀。这些前缀作为上下文调整，针对特定任务调整模型的行为。与提示调优不同，前缀调优影响模型的多个层。值得注意的实现包括EPI[213]和MoCL[202]。

·LoRA(低秩自适应)[63]: LoRA在预训练模型的某些层中嵌入低秩矩阵，以适应其功能而无需全面的重新训练。它允许对特定模型组件进行有针对性的调整。使用LoRA 的方法包括Lee等人[96]、 C-LoRA[179]、 ConPET[181]、GLRL[262]、O-LoRA[209]、CoLoR[218]、InfLoRA[108]、SAPT[140]、MoRAL[234EKFAC[19]和I-LORA[164]。

·适配器(Adapters)[59]: 这是一种小型的两层前馈神经网络，具有瓶颈结构，插入到现有模型架构的各层之间。它们使得模型能够在保持预训练参数不变的情况下学习新的能力。例如， CPT [82]、 LAFT-URIEL [6]、DMEA [152]、TSS [84]、HOP [137] 和 SEMA [197]。

·混合专家(Mixture of Experts,MoE)[172]:MoE方法在推理时利用门控机制动态地从一组专家前馈神经网络中选择，根据当前任务进行。这使得模型能够将其架构的部分专门针对特定类型的任务进行优化，从而提高性能和可扩展性。例如，DEMix[50] 和ModuleFormer[175]。

·模型扩展[22]:这类方法包括重用现有模型组件或扩展模型架构以适应新信息和任务。这可能涉及添加新的层或模块，或者扩展现有组件以提高模型的容量和灵活性。值得注意的方法bert2BERT[17]、 Wang等人[203]、LLaMA Pro[219] 和SOLAR[89]。

2.3.4 基于蒸馏的方法

根据蒸馏目标的来源，可以将蒸馏方法分为三类：新数据、旧数据和伪旧数据：

·新数据蒸馏：这些技术涉及学生模型在具有新数据的教师模型指导下直接从新任务中学习。代表性的方法包括Learning without Forgetting(LwF)[106], 该模型能够在不遗忘旧类别的前提下适应新类别。在持续命名实体识别中，如ExtendNER [142]和CFNER [266]等方法解决了新旧实体重叠问题，它们利用旧模型为“其他”标记生成伪软标签，有助于学习新实体的同时保持旧知识。此外，在持续机器翻译中， Cao 等人[14]、COKD [170]、LFR[46]和CKD [245]等方法也采用了侧重于新数据的蒸馏策略。

·从旧数据蒸馏：这类方法利用通常存储在内存中的旧数据来引导学生模型通过教师模型的输出。例如，CRN [7]、CRL [263]、SCKD [210] 和 CEAR [264]。

·伪旧数据蒸馏：当保留旧训练数据不切实际时，L&R [226]、Wang等人的方法[206]、DnR [185]、PCLL [265]和 LFPT5[153] 等会生成合成旧数据。这些方法创建模拟旧数据分布的伪样本。这类方法常用于生成任务和命名实体识别中。

2.4 评测标准和数据集

我们总结了常用基准和数据集如下：(1)连续文本分类： CLINC150[94],BANKING77 [15],AGNews,Yelp,Amazon,DBPedia,Yahoo [254],HWU64 [120],(HL5Domains,Liu3Domains,Ding9Domains,SemEval14)[87],GLUE[196];(2) 连续命名实体识别：OntoNotes5 [60],12B2 [143],Few-NERD[36];(3) 连续关系抽取：FewRel[54],TRACRED[258];(4) 连续机器翻译： WMT 1,TED Talks 2;(5) 连续知识编辑：zsRE[34],FEVER[188],CounterFact [133];(6) 连续指令调优：(MNLI,QQP,RTE,SST2)GLUE [196],(WiC,CB,COPA,MultiRC,BoolQ)SuperGLUE[195],Naturallnstruction[138],SuperNI[212];(7) 连续对齐： HH-RLHF[183],Reddit TL;DR[194]。

3 方法：持续预训练

持续预训练[31,49,51,52,78,86,102,127,158,227,228,235,241]增强了大语言模型的内在知识，这一点在全量预训练成本高昂的情况下尤为重要。尽管相比于持续微调，关于持续预训练的研究相对较少，但它对于提升现有大语言模型的通用能力至关重要。持续预训练有三种类型： 连续垂直领域预训练[31,47, 49,78,102,127,157,158,227,228,235,241],目标是针对特定领域的持续学习，同时避免遗忘先前习得的专业知识； 连续语言领域预训练[6,23,45,71,217,229,230],专注于适应语言使用的演变；以 及连续时间领域预训练 [52,74,95,121,124,252,260],通过时间敏感数据更新模型，使其能够掌握最新的知识。

3.1 连续垂直领域预训练

持续垂直领域预训[31,47,49,78,102,127,157,158,227,228,235,241]是指连续在一系列特定领域的数据集上训练语言模型。这种方法确保了模型在多个垂直领域或任务中表现出色，同时保持了之前学到的知识。例如，在金融领域数据上的持续预训练使大语言模型能够更好地分析财务文本和数据[231]。在连续垂直领域预训练的实验研究主要集中在解决灾难性遗忘问题上[24,58,235]。作为开创性工作，Jin 等人[78]发现基于蒸馏的方法对于保持早期领域的下游性能最为有效。在此基础上，Mehta 等人[131]发现，在一系列任务上预训练的模型相比从头开始训练的模型，遗忘现象较少，突出了任务多样性的好处。Cossu 等人[31]进一步表明，持续预训练有助于缓解遗忘，支持了持续接触各种任务可以提高模型鲁棒性的观点。然而，Li等人[102]强调，灾难性遗忘仍然是一个重大挑战，并不能完全通过这种方法解决。

包括冷冻层、模块、 LoRA 和(IA)3在内的简单方法[113]。这些发现共同强调了解决灾难性遗忘的复杂性，以及在持续垂直领域预训练中需要创新方法的需求。关于持续垂直领域预训练的研究正在不断发展，涉及的技术包括但不限于经验回放[47,78,117,158]、参数高效的微调[47,78,112,178]、专家混合[50,73]、知识蒸馏[78,157]、模型扩展[17,89,158,219]、再加热[49]和数据选择[2,112,127]等。

3.1.1 参数高效微调

参数高效微调是一种旨在优化模型以适应特定任务而无需大量计算资源的技术。CorpusBrain++[47]通过采用背骨-适配器架构和经验回放策略，解决了现实世界中知识密集型语言任务的动态特性。Med-PaLM[178] 则将指令提示微调引入医疗领域，仅使用少数示例。这些方法强调了在适应专门领域的同时，有效微调策略对于保持跨多样化任务性能的重要性。

3.1.2 模型扩展

模型扩展涉及通过增加宽度和深度来增强预训练语言模型的架构，以提高从多个领域连续

数据流中获取和整合知识的效率。ELLE [158] 采用了一种保持功能不变的模型扩展策略，灵活地扩展现有预训练语言模型的大小。类似地，bert2BERT [17] 通过扩展其架构增强了基础BERT 模型，使其能够更好地处理新的和更复杂的数据，同时保留早期训练阶段的知识。遵循这些方法，LLaMA Pro [219] 扩展了Transformer块，并使用新的语料库进行微调，在一般用途、编程和数学相关的任务中表现出色。此外，SOLAR[89] 利用深度放大(包括深度方向的放大和持续预训练),能够在无需对训练和推理进行复杂调整的情况下，有效地提升大语言模型在各种NLP 任务中的性能。

3.1.3 重新加热(Re-warming)

在引入新数据集进行持续训练时，调整学习率是一个策略。Gupta 等人 [49]提出这种方法是为了防止在长时间训练过程中学习率下降过多，这可能会阻碍新数据的处理。实验结果表明，对模型进行重新加热不仅有助于更有效地适应新数据集，还能提高整体下游任务性能。

3.1.4 数据选择

数据选择在预训练中发挥着关键作用，其中使用了各种轻量级过滤器来保证数据质量[2,112]。这些过滤器包括基于启发式的方法(例如，语言和项目计数过滤)、基于分类器的方法[12]以及基于困惑度的技术[216]。例如，RedPajama-Data-v2数据集[30]就采用了超过40个质量指标来进行数据过滤和重采样，以提升数据选择的质量。最近，林等人[112]提出了RHO-1, 它使用了选择性语言建模 (Selective Language Modeling,SLM) 进行训练。SLM 通过评估每个令牌的梯度影响，识别并优先处理训练过程中最具影响力的部分，从而优先考虑那些导致损失函数更大变化的元素。另一种方法是LESS[225] 提出了一种低秩梯度相似度搜索算法，以高效地为定向指令调优选择最相关数据，通过精心挑选的数据子集进行训练，显著提高了模型性能。此外，马等人[127]提出了EcomGPT-CT, 它利用半结构化的电子商务数据来提升模型在特定任务上的表现。

EcomGPT-CT采用了数据混合策略，将通用预训练数据与领域特定的半结构化数据相结合，从而增强了其在特定领域的效果。

3.2 持续语言领域预训练

持续语言领域预训练[6,23,45,71,217,229,230]将预训练语言模型的概念扩展到连续整合新数据并适应不断演变的语言领域，同时不会遗忘先前的知识。关于持续语言领域预训练的研究主要关注自然语言[6,217,230]和代码语言[20,229]。持续语言领域预训练的研究主要集中在经验回放[45,71]、基于架构的方法[6, 23,175,229]以及再加热 (re-warming)[71] 等技术上。

3.2.1 基于架构的方法

基于架构的方法为增强LLMs在持续语言领域预训练中的适应性和效率提供了创新解决方案。 Yadav 等人[229]通过引入教师强制机制改进了提示调优，创建了一个提示池，引导模型在新任务上进行微调，并迫使模型在训练过程中遵循特定路径。Yang 等人[230]提出了CLL-CLIP 模型，它扩展了CLIP[160] 的语言理解能力，以实现对新语言的持续学习。他们采用了Token Embedding Initialization和Regularization来缓解灾难性遗忘。CLL-CLIP 包含一个可扩展的嵌入层，可以根据语言差异动态调整，从而无缝集成新令牌。 ModuleFormer[175] 和Lifelong-MoE[23] 都是基于架构的方法，它们利用MoE 来提升LLM 的效率和适应性。ModuleFormer 通过根据输入令牌激活特定模块，确保了目标处理。 Lifelong-MoE 通过定期预训练引入新的专家来动态增加模型容量，在少量样本和多任务学习场景中表现出色。这些方法共同展示了架构创新在解决持续学习挑战方面的潜力。

3.2.2 重新加热(Re-warminq)

重新加热策略涉及在开始处理新数据时暂时增加学习率，使模型能够更快地适应新语言。Ibrahim 等人[71]提出了一种连续预训练方法，结合了学习率 (LR) 重新加热、LR 重新衰减和数据重播。在他们的方法中，先进行LR重新加热，然后是LR重新衰减，即按照特定的时间表系统性地降低学习率。这个重新衰减阶段有助于模型在学习新语言后稳定下来，防止过度拟合最近的数据。这种方法与Gupta 等人提出的其他方法[49]相吻合，他们强调在持续垂直领域预训练期间调整学习率以保持模型有效性的重要性。

3.3 持续时间域预训练

持续时域预训练[52,74,95,121,124,252,260]涉及不断使用与时间相关的数据更新语言模型，以保持其准确性和相关性，随着新信息的出现。现有的研究[95,124,166]指出，由于LLMs 无法学习对时间变化敏感的新知识，它们的性能会随着时间下降。例如，基于2023年数据预训练的LLM 无法回答关于2024年事件的问题。

实证研究揭示了语言模型在时间适应方面面临的一些挑战。 Lazaridou 等人[95]发现，当用过去的数据训练的模型在测试未来数据时，性能会显著下降，这突显了大语言模型在时间泛化方面的困难。Rottger等人[166] 的研究也表明，尽管时间适应在掩码语言模型任务上略有改善，但与单独的领域适应相比，它对下游任务的性能提升并不显著。此外，Luu 等人[124]发现，尽管持续预训练有助于时间适应，但在时间相关的任务上，它不如针对特定任务的微调有效。11包括冷冻层、模块、 LoRA 和(IA)3在内的简单方法[113]。这些发现共同强调了解决灾难性遗忘的复杂性，以及在持续垂直领域预训练中需要创新方法的需求。关于持续垂直领域预训练的研究正在不断发展，涉及的技术包括但不限于经验回放[47,78,117,158]、参数高效的微调[47,78,112,178]、专家混合[50,73]、知识蒸馏[78,157]、模型扩展[17,89,158,219]、再加热[49]和数据选择[2,112,127]等CorpusBrain++[47]通过采用背骨-适配器架构和经验回放策略，解决了现实世界中知识密集型语言任务的动态特性。Med-PaLM[178] 则将指令提示微调引入医疗领域，仅使用少数示例。这些方法强调了在适应专门领域的同时，有效微调策略对于保持跨多样化任务性能的重要性。

3.3.1 模型扩展

模型扩展涉及通过增加宽度和深度来增强预训练语言模型的架构，以提高从多个领域连续数据流中获取和整合知识的效率。ELLE[158] 采用了一种保持功能不变的模型扩展策略，灵活地扩展现有预训练语言模型的大小。类似地，bert2BERT [17] 通过扩展其架构增强了基础BERT 模型，使其能够更好地处理新的和更复杂的数据，同时保留早期训练阶段的知识。遵循这些方法，LLaMA Pro [219] 扩展了

Transformer块，并使用新的语料库进行微调，在一般用途、编程和数学相关的任务中表现出色。此外，SOLAR [89] 利用深度放大(包括深度方向的放大和持续预训练),能够在无需对训练和推理进行复杂调整的情况下，有效地提升大语言模型在各种NLP 任务中的性能。

3.3.2 重新加热(Re-warming)

在引入新数据集进行持续训练时，调整学习率是一个策略。Gupta 等人 [49]提出这种方法是为了防止在长时间训练过程中学习率下降过多，这可能会阻碍新数据的处理。实验结果表明，对模型进行重新加热不仅有助于更有效地适应新数据集，还能提高整体下游任务性能。大多数现有方法都利用经验回放来减轻遗忘。除了体验回放外，Han 等人。[52]提出了事件时间推理的有效连续预训练框架（ECONET），该框架集成了有针对性的掩蔽和对比损失，以强调训练期间的事件和时间指标。具体来说ECONET采用掩码预测策略，其中与事件和时间相关的特定标记被掩码，以及判别器模型用于区分正确句子和损坏句子，从而增强时间推理。Zhao等[260]引入时间自适应微调，将模型的内部知识与目标时间同步不更改提供给模型的显式上下文信息。作为对这些方法的补充，TimeLMs[121] 是不断更新的语言模型，这些模型在历时性Twitter 数据上进行训练，以捕捉语言并随着时间的推移保持相关性。总之，这些方法展示了解决语言模型中持续学习和时间适应的挑战。

3.4 小结

持续的预培训通过更新他们的内部知识来增强 LLM，而不会产生高昂的成本。预训练。目前的研究跨越垂直、语言和时间领域，应对灾难性等挑战遗忘和时间适应。经验回放、知识提炼、参数高效等技术微调、模型扩展和重新预热已经显示出希望。尽管取得了这些进展，但仍面临重大挑战保持，特别是在保持一段时间内和各种任务的性能方面。未来的研究应重点关注关于减轻遗忘、改善时间泛化和开发高效、适应性强的创新方法用于持续模型性能的架构。

4 方法：持续微调

持续微调 [69， 110， 142， 184， 199， 207] 增强了 LLM 的内部知识，并使 LLM 适应特定的文本分类[69]、命名实体识别[142]、关系提取[199]、机器翻译等任务[14]或一般的生成任务，如指令调优[184]、知识编辑[207]以及与人类的对齐偏好[110]。我们在图 5 中提供了 7 个持续微调场景的图示。

4.1 连续文本分类

文本分类包括不同的方向，如意图检测、情感分类、主题分类和域分类。但是，过去的文本分类方法只能检测预定义的类别。在现实世界中，新类别可能会不断挑战已部署的模型。例如，COVID-19 大流行带来了许多“核酸检测”和“群体免疫”等新主题类别。因此，连续文本的出现分类使模型能够不断学习新数据并识别新出现的类别。这些方法可以大致分为以下几大类：基于蒸馏的[85,119]，基于回放的[7,103,118,182,192,193]，基于正则化 [19， 64， 69， 151， 274]、基于架构等 [16， 87， 147， 217， 223]。详细对比表1中提供了这些方法之间的方法。。

4.1.1 数据选择

lextciassincaion inciuaes amerent airecnons,sucn as intent aetecion,sentiment ciassincation,topic ciassincauon,ana 最近，林等人[112]提出了RHO-1, 它使用了选择性语言建模(Selective Language Modeling,SLM进行训练。 SLM 通过评估每个令牌的梯度影响，识别并优先处理训练过程中最具影响力的部分，从而优先考虑那些导致损失函数更大变化的元素。另一种方法是LESS[225] 提出了一种低秩梯度相似度搜索算法，以高效地为定向指令调优选择最相关数据，通过精心挑选的数据子集进行训练，显著提高了模型性能。此外，马等人[127]提出了EcomGPT-CT, 它利用半结构化的电子商务数据来提升模型在特定任务上的表现。EcomGPT-CT采用了数据混合策略，将通用预训练数据与领域特定的半结构化数据相结合，从而增强了其在特定领域的效果。

(g)Continual Alignment图5.连续微调场景的示例。在每个连续微调场景中，模型会依次学习任务 t-1,t, 和 t+1 (从左到右)。紫色和绿色盒子分别表示输入和输出。

4.1.2 基于蒸馏的方法

为了增强文本类别的区分度，CLASSIC [85] 使用了对比性集成蒸馏，通过对比损失增强了跨任务的知识迁移。此外， MSR [119] 提出了多策略再平衡方法，结合了余弦归一化、层次知识蒸馏和类别间margin 损失，以应对类别不平衡问题。

4.1.3 基于重放的方法

有几种方法整合了对比学习技术或结构化学习方法，以提高重放样本的质量和学习过程的稳定性。 SCN[118] 和 InfoCL [182] 优化了样本选择，并利用对比学习来改善表示恢复，对抗重放过拟合。这些方法有助于保持学习表示的一致性和相关性，解决了诸如数据不平衡和特定领域中罕见词汇等问题。

表 1.连续文本分类和连续命名实体识别的代表性方法比较。 PEFT表示是否利用参数效率微调方法进行模型训练。重放、正则化、蒸馏、架构是指第 2.3 节中总结的常用技术。

4.1.4 基于蒸馏的方法

为了增强文本类别的区分度， CLASSIC [85] 使用了对比性集成蒸馏，通过对比损失增强了跨任务的知识迁移。此外， MSR [119] 提出了多策略再平衡方法，结合了余弦归一化、层次知识蒸馏和类别间margin损失，以应对类别不平衡问题。基于重放的方法。有几种方法整合了对比学习技术或结构化学习方法，以提高重放样本的质量和学习过 integrates程的稳定性。SCN [118] 和 InfoCL [182] 优化了样本选择，并利用对比学习来改善表示恢复，对抗重放过 deep integ拟合。这些方法有助于保持学习表示的一致性和相关性，解决了诸如数据不平衡和特定领域中罕见词汇等问题。包括选择能最好体现先前任务本质的代表性样本，以及采用轻量级模型，在不断适应新信息的同时，不会丢失先前的知识。

4.1.5 基于正则化的方法

为了提高参数更新的效率，一些方法如PE[274] 、IDBR[69] 和EKFAC[19] 会选择性地更新一小部分参数，以减轻计算负担。这些方法确保学习过程在资源利用上既高效又能有效地整合新知识，同时避免覆盖之前任务中宝贵的信息。为了自动化正则化过程的调整，一些方法消除了手动超参数调优的需求，使模型能够自适应地在保留旧知识和获取新信息之间取得平衡，如CCFI [64]和Qian 等人[151]所示。

4.1.6 基于架构的方法

为了促进知识共享，已经提出了一些策略，例如层次聚类投影(HOP)[137] 中的层次覆盖投影、B-CL [87] 和CTR[83] 中的动态路由机制以及ADA[37] 。这些策略优化了在不同任务之间的知识转移和共享，从而提高了模型学习新任务时的效率和效果。

为了保护任务专有知识，一些研究引入了参数隔离机制，例如B-CL 的持续学习适配器[87]、 Transformer 组件的选择性激活/去激活、SCCL 中的实例级关系蒸馏[123]以及EPI 中的私有参数隔离[213]。这些方法有效地减少了新旧任务之间的干扰，能够在整合新任务的同时保持对旧任务的性能，从而解决了灾难性遗忘问题。

4.1.7 其他

除了持续的文本分类任务外，还有关注元学习文本分类和多语言文本分类的任务，例如Pasunuru 等人[147]和ENTAILMENT[223] 专注于提升元学习能力，即通过少量示例训练模型；CL-KD[16] 和LR ADJUST[217]则不断将新的语言融入现有模型中，在多语言环境下缓解了灾难性遗忘。

4.2 命名实体识别的持续演化

连续命名实体识别 (Continual Named Entity Recognition,简称CNER) 旨在适应性地识别新型实体类型，应对现实世界中新实体的动态出现。它涉及在包含这些新型实体的新标注数据集上进行增量训练，使模型能够逐步扩展其识别能力，包括这些新类别，同时不会遗忘之前学习的实体。例如，在句子“利物浦上周输给了切尔西”中，一个连续命名实体识别模型的目标是正确标记“利物浦”和“切尔西”为[体育团队],而非实体标记为[其他]。这种方法使得模型能够在其他上下文中适应识别新的实体类型，如[政治家]。除了灾难性遗忘的挑战外，持续命名实体识别还必须应对语义漂移问题[159,266]。当标签分类发生变化，例如从“其他”变为特定实体类型，或反之亦然时，就会发生语义漂移。这尤其具有挑战性，因为只有与当前任务相关联的实体才会被标记，而先前学习和未见过的实体都被标记为“其他”。现有的方法大致可以分为四类：迁移学习方法[26,142,245-247,255,266]、重播方法[13,125,226,238]、原型方法[27,93,159] 和架构方法[116,174,181]。这些方法的详细比较见表1。

4.2.1 基于蒸馏的方法

在一般的连续学习场景中，特征级知识蒸馏通常被用来在特征空间中对学生产生隐式知识约束。在连续命名实体识别中，知识蒸馏涉及将新训练样本输入教师模型，并使用由此产生的logits 来指导学生模型。这有效地利用了新训练样本中的旧样本进行隐式回放，从而对学生产生了明确的知识约束。作为先驱工作，ExtendNER[142] 考虑到不断涌现的命名实体的现实场景，将知识蒸馏引入命名实体识别，构建了一个连续命名实体识别框架。后续方法通过整合知识蒸馏技术，改进了解决由“其他”实体类型引起的语义漂移的问题，如DLD[247] 、RDP[246] 、CPFD[245] 等。此外，一些方法引入了新的视角或技术。

CFNER[266]建立了一个因果框架[149,268,271],以链接旧知识和新知识，并通过课程学习处理噪声标签。SpanKL[255] 则改变了范式，通过在span 级别建模连续命名实体识别，减少了标签冲突。 SKD-NER[26]通过融入强化学习，优化温度系数和权重的选择，以更好地生成软标签，进一步改进了蒸馏过程。

4.2.2 基于重放

尽管连续命名实体识别是一个逐词级别的任务，但存储的重放样本是句子级别，包含了实体的上下文信息。

为了更有效地利用重放样本来回顾旧实体，一些工作设计了不同的方法来提取旧知识。L&R[226] 使用生成模型产生伪样本，以增强对历史实体数据的训练。OCILNER[125] 利用重放样本计算旧类实体的中心，并采用对比学习在特征空间中聚类实体，从而提高实体之间的区分度。KD+R+K[238] 根据新旧实体的相似性聚合它们的特征表示，为新实体初始化表示，并增强新旧实体之间的关联。为了提高存储效率，KCN[13] 利用重放样本与类别中心之间的相似性，逐步修剪远离类别中心的旧样本，同时持续添加新样本。

4.2.3 原型法

与重播方法相比，原型方法通常使用聚类中心或类别均值来定义原型，避免直接使用旧样本，从而在一定程度上缓解了隐私和存储限制的问题。SDAPN [27]预先分配特征空间的部分给新类别，并利用新样本与旧类别原型之间的相似性来纠正偏差。ProtoNER [93] 将传统的线性分类器替换为来自隐藏层特征向量的原型，以细化分类过程。IS3[159] 通过将原型与去偏化的交叉熵损失相结合，对抗语义偏差，确保模型不会过度偏向新类别而忽视旧类别。

4.2.4 基于架构的方法

针对全模型微调导致的高资源成本问题，基于架构的方法[116,174,181]专注于修改模型结构，以支持持续学习而无需大量重新训练。ICE[116] 保持静态模型骨干，使用固定的实体分类器，并在训练过程中为新兴实体引入新的分类器。在推理阶段，这些分类器被统一起来，以确保全面的实体识别。 ConPET[181] 为每个任务使用不同的参数高效调整(PET) 模块，显著减少了调整开销，同时最小化了过拟合和遗忘。

表2:代表性的连续文本关系抽取和连续机器翻译方法之间的比较。 PEFT 表示是否使用参数高效微调方法进行模型训练。Replay、Regularization、Distillation 和Architecture 指的是第2.3节总结的常用技术。

4.3 持续关系抽取

连续关系抽取 (Continual Relation Extraction,CRE) 涉及更新关系抽取模型以识别新关系，同时保持对已学习数据的准确性。例如，对于句子"Lange was born July 23,1957,in lllinois", 关系抽取系统会识别“Lange“和"Illinois”之间的关系为“出生地的州或省份“。挑战在于，系统需要学习新关系，如“总部所在国家”,而不丢失现有关系。除了灾难性遗忘，连续关系抽取还面临两个挑战：(1)顺序敏感性[28,237]:指模型性能随任务引入顺序变化的现象。 (2)类似关系干扰[205,264]:当模型混淆相似关系，如“总部所在国家“和“总部所在州或省份“时，会出现问题。在持续关系抽取中，由于它们在处理新信息获取和旧知识保持方面的有效性，经验回放[32,53,62,263]被广泛采用。五种流行技术与经验回放结合使用：知识蒸馏[210,263,264]、关系原型[32,53,204,250]、对比学习[62,126,263,264]、元学习[145,221]和数据增强[126,154,205]。表2对这些方法进行了详细比较。

4.3.1 知识蒸馏

CEAR[264]采用了焦点知识蒸馏(FKD), 其专注于提升相似关系的重要性。而SCKD[210] 则强调使用伪样本进行序列蒸馏，以增强元学习能力。相比之下，CRL[263] 关注跨任务的一致关系表示学习，通过在内存维护中保持嵌入向量的对齐，确保嵌入空间的稳定性。

4.3.2 关系原型

关系原型是指在特征空间中的关系表示。作为早期工作， EMAR[53] 专注于使用关系原型进行记忆回放。类似地， RP-CRE[32] 也利用关系原型来细化样本嵌入。受EMAR[53] 和RP-CRE[32] 的启发 FEA[204] 的一个更简化变体通过快速适应和平衡调优过程进行操作。借助外部知识， KIP-Framework[250]将这些知识注入原型中以生成原型。

4.3.3 对比学习

对比学习的应用[72]各异，从关注数据分布和嵌入稳定性 (CRECL[62] 和CRL[263]) 到处理少量样本学习和过拟合问题 (CPL[126]), 以及增强类比关系的区别性(CEAR[264]) 。CRECL[62] 使用对比网络，它将给定实例与存储在内存模块中的每个候选关系的原型进行对比。对于对比式重播CRL[263] 使用它来训练记忆样本。类似地， CEAR[264] 在训练过程中结合使用对比学习和线性方法，前者有助于改善特征空间对齐，后者确保任务特定的决策边界。此外，CPL[126] 引入了基于边距的对比学习目标，以获得区分性的表示。

4.3.4 元学习

为了使模型能够快速适应新任务并减轻灾难性遗忘，MLLRE[145] 和CML[221] 都采用了元学习框架。一方面，MLLRE[145] 使用了基于梯度的元学习算法REPTILE[144],不涉及二阶导数。另一方面， CML[221] 将课程学习与元学习相结合，创建了一个动态的学习课程，根据任务难度优先级进行排序。主要区别在于，CML[221] 侧重于任务排序和构建学习课程的难度，而MLLRE[145] 直接优化元目标。

4.3.5 数据增强

数据增强被用来丰富训练数据，提高模型在任务间的泛化能力，特别是在资源匮乏的情况下。大多数方法使用外部数据[154]或生成样本[126,205]。ACA[205] 通过融入对抗性示例来增强模型的鲁棒性和泛化能力。此外， ERDA[154] 从包含维基百科句子的未标注语料库中选择有信息性的样本，以提供更多的关系知识，支持少量样本任务。借助大型语言模型， CPL[126] 引导它们生成多样且相关的样本，用于记忆增强。

4.4 持续机器翻译

持续机器翻译[14,16,41,46,67,68,170,217,253]旨在满足现实场景中多语言任务的需求，允许随着时间的推移添加新语言。持续机器翻译通常首先在通用领域语料库上进行训练，该语料库包含多种语言，然后通过针对新语言的领域内持续训练进行微调。目标是在保留初始语言知识的同时学习新语言。大多数连续机器翻译方法是单步增量语言学[14,16,41,46,67,68,170,253],少数是多步增量语言学习[16,217]。有几篇文章通过提出新的基准而对这一领域做出了贡献。专门用于评估多语言环境中的终身学习能力。Barrault等人[8]提供了英语-德语和英语-法语的训练、终身学习和测试数据集，以推动终身学习神经机器翻译的研究。相反，CLLE[251] 引入了一个以中文为中心的基准，其中包含测试模型处理密切相关语言和不同语系能力的任务，反映了实际需求。此外，连续机器翻译方法大致可以分为四类：基于蒸馏的方法[14,170,256]、基于正则化的[46,88,114]、基于架构的方法[9, 41,67,68,220]和其他方法[8,38,165,251]。这些方法之间的详细比较见表2。

4.4.1 基于蒸馏的方法

传统的NMT模型在处理持续或序列学习问题时，无法保持对先前学习知识的掌握。因此，有几种方法从动态知识蒸馏的不同方面进行创新，例如Cao 等人[14]和CKD[256]。此外，为了解决不平衡训练问题，COKD[170] 通过独特地整合动态更新的教师模型，使模型在训练样本上达到平衡。

4.4.2 基于正则化的方法

为了平衡神经机器翻译的持续学习目标，已经有许多不同的实现方式，例如通过正则化训练过程，使其尽可能接近既定模型[88],识别可能导致最小遗忘的参数更新[46],或者根据参数对特定任务或整体功能的相关性进行分类[114]。

4.4.3 基于体系结构的方法。

机器翻译中的基于体系结构的方法包括词汇结构[9,41,67]和模型结构[38,68, 220]。词汇结构指的是神经机器翻译 (NMT) 模型能够识别和生成的一组独特令牌或单词。这些令牌通常包括模型用于处理和翻译文本的语言单位，如单词、子词或字符。EVS 方法[67]通过根据语言间的熵值动态管理词汇表，优化嵌入空间，从而增强语言多样性，同时不扩大模型规模。类似地， Garcia 等人提出的方法[41]通过选择性替换词汇部分来提高嵌入效率，保持翻译质量的同时有效地整合新语言。

模型结构创新体现在动态资源分配机制和模块化适应性方面，这决定了模型处理不同语言元素(尤其是多语言翻译)的效率。F-MALLOC[220] 引入了一种内存分配模型，通过动态调整资源来适应新语言，从而支持可扩展和高效的训练。与此同时， KT[68] 将语言特定适配器融入到NMT 框架中，实现了无缝的知识迁移，使得模型能够在无需大量重新训练的情况下学习新语言，从而保持在多样语言范围内的性能。

4.5 持续调优指令

传统的自然语言处理(NLP) 机器学习范式假设目标任务是预定义且静态的，并且任务监督依赖于标记样本。这就提出了如何构建能够根据指令连续学习新任务的系统的问题。连续指令调优 (Continual Instruction Tuning)通过设计同一模型解决多种NLP 任务的不同指令来应对这个问题。早期使用GPT-2[161]的文献常常使用诸如数据集名称或特殊标记之类的简单指令[184]。在这篇综述中，我们将指令调优定义得更为广泛，涵盖了各种生成任务上评估的方法。

表3:代表性的持续指令调优、持续知识编辑和持续对齐方法之间的比较。PEFT 表示是否使用参数高效微调方法进行模型训练。 Replay、Regularization、Distillation 和 Architecture 指的是第2.3 节总结的常用技术。Chen等人[18]提出了一个全面的基准测试，称为连续指令调优(CoIN),用于评估现有模型在顺序指令调优范式中的性能。 ColN 考察了两个方面：指令跟随和一般知识。它包含涵盖8个任务类别的10个常用数据集，确保了指令和任务的多样性。连续指令调优方法大致可以分为三种主要方法：重播式[65,80,129,153,184,185,265]、正则化式[11,77,136,209,211]、梯度式[92,97]和架构式[43,48,84,109,128,162,168,208,236,257,273]。这些方法的详细比较见表3。

4.5.1 基于重放的方法。

这类方法包括生成式重放法[65,80,129,153,184,185,265]和经验回放缓冲区法 [164]。受到海马体记忆机制启发的生成重播[177],这篇奠基之作提出了一种新颖的方法，通过模拟人脑海马体—— 其在记忆形成和回忆中扮演关键角色。该模型在吸收新信息的同时高效保持先前知识，为解决灾难性遗忘问题设定了基础。在此基础上，LAMOL[184] 将生成重播直接内置于语言模型中。这种整合简化了架构，并允许动态伪样本生成，增强了记忆巩固，而无需额外计算开销。 LFPT5[153] 进一步优化了这种方法，利用提示调参快速适应新任务，仅需少量示例，显著降低了对数据的依赖，同时保持跨任务性能。此外，还有多种方法改进生成重播框架，如PCLL[265] 、HMI-LAMOL[129] 和SSR[65] 。还有一些方法遵循经验回放的传统设置，如1-LoRA[164]。

4.5.2 基于正则化的

正则化方法大致可以分为直接正则化[136,209]和间接正则化[11,77,211]两类。直接正则化是直接影响模型参数以保持先验学习的方法。例如， ARPER [136] 将自适应正则化直接融入训练过程，利用正则化项来直接缓解在学习新对话任务时对先前知识的遗忘。类似地，O-LoRA [209] 利用正交低秩适应(O-LoRA) 方法，它直接限制梯度更新与先前任务的子空间正交。

间接正则化利用任务之间的相似性和重要性等因素，对模型参数施加间接限制。例如， BiHNet [77] 利用双层超网络创建特定任务适配器，通过最小化任务干扰来间接保持过去知识。InsCL [211] 利用丰富数据的动态重播，通过重新引入过去任务的关键特征，间接促进持续学习。此外，SLM[11] 引入了动态重参数化机制，根据任务分布调整模型参数，确保每个任务的学习相互独立，从而减少重要历史信息的覆盖。

4.5.3 基于梯度的方法

在持续指令调优领域，有效管理知识转移和缓解灾难性遗忘是影响语言模型鲁棒性和灵活性的关键挑战。一些进展专注于创新的梯度操作技术来解决这些问题。Lee 等人[97]提出了一种方法通过增强不同任务之间的梯度对齐，以促进更好的泛化并最小化负迁移。相比之下，Korbak 等人[92]提出了一种框架，用于动态调整学习参数，以在微调过程中保持之前获取的知识。这些方法共同强调了复杂梯度策略在无需牺牲之前学习信息的情况下，优化语言模型在各种语言任务中的适应性的潜力。

4.5.4 基于架构的方法

基于架构的方法可以分为模型驱动的[43,208]、适配器驱动的[84,128,140,152,257] 和提示驱动的方法[48,109,162,164,168,236,273]。基于模型的方法会根据新信息动态调整整个网络架构，而无需重新训练整个系统。例如， TPEM 算法[43]采用了一种循环，包括剪枝以消除不那么有用的连接、扩展网络以适应新任务以及使用掩码来选择性地禁用某些路径，从而确保系统的效率和对当前任务的相关性。此外， Wang 等人[208]也利用了 (此处为缺失内容，可能是论文引用)。不确定性估计用于决定系统何时应自我更新，以及一个在线学习组件，可即时将新数据融入模型。

适配器方法选择性地添加新模块来管理知识保持和跨顺序任务的适应性。一些方法允许模型通过动态调整和优化其架构以适应每个新任务，例如ACM[257]、DMEA[152] 等。它根据新任务和过去任务的表现及相关性，融合新的模块并调整现有模块，使得扩展过程既目标明确又高效。此外， SAPT[140] 并非通过常规意义上的添加新层或模块进行扩展，而是通过使用灵活的注意力机制，将之前任务存储的不同参数集应用到新任务上。

基于提示的方法本质上是针对特定任务的调整器，它们指导预训练语言模型生成适合新任务的输出，同时保持在旧任务上的性能。这是通过有策略地修改或扩展模型的输入空间，将任务的核心本质封装在提示中实现的，这样可以保持核心模型参数不变。例如，LPT[109] 使用二元提示掩码来选择性地剪枝无效的提示向量，提高了计算效率并保留了关键的特定任务知识。相比之下， DYNAINST [141] 则融入了动态重播机制，以选择性地保留能提升学习效率的训练示例，从而优化跨任务的知识保持。此外，ProgPrompt [162] 创新性地按顺序连接特定任务的提示，以累积知识并促进向前迁移，同时不丢失先前信息。这些方法共同推动了基于提示策略的发展，提升了语言模型的可扩展性和效率，促进了终身学习。

4.6 知识编辑持续进行

持续知识编辑是语言模型终身学习的关键组成部分，旨在确保它们在遇到新信息或发现先前知识过时时能够保持适应性和准确性[70]。与基于固定知识的传统问答任务不同，持续知识编辑涉及通过知识三元组(如(头实体，关系，尾实体))更新模型的理解，这有助于精确定义模型知识库中所需进行的修改[207]。例如，当天文学定义发生变化时，可能需要将三元组(冥王星，属于，行星)更新为(冥王星，属于，矮行星)。该领域的研究传统上侧重于单步编辑技术[33,34,133,134,139],模型会经历一次重大更新，以修正或增强其知识库。然而，最近的方法[55,56,61,70,96]提倡持续和逐次的编辑过程，更符合终身学习的理念。这涉及随着时间的推移进行多次小幅度调整，使模型能够适应不断变化的现实需求，无需全面重新训练就能保持相关性和准确性。

持续知识编辑方法主要可以分为三大策略：外部记忆 (External Memorization) 、全局优化 (GlobalOptimization) 和局部修改 (Local Modification)。这些方法的详细比较见表3。207。(1)外部记忆方法，如GRACE[55] 和T-Patcher[70], 采用扩展策略来整合新数据。例如，GRACE 使用键值对动态存储新信息，使得模型无需完整重新训练即可访问最新数据。相比之下， T-Patcher 针对模型参数进行精确、定向的调整，以修正特定错误，类似于软件补丁修复bug, 从而确保模型输出的准确性和时效性。(2)全局优化涉及更为全面的更新。

受到海马体记忆机制启发的生成重播[177],这篇奠基之作提出了一种新颖的方法，通过模拟人脑海马体——其在记忆形成和回忆中扮演关键角色。该模型在吸收新信息的同时高效保持先前知识，为解决灾难性遗忘问题设定了基础。在此基础上，LAMOL[184] 将生成重播直接内置于语言模型中。这种整合简化了架构，并允许动态伪样本生成，增强了记忆巩固，而无需额外计算开销。LFPT5[153] 进一步优化了这种方法，利用提示调参快速适应新任务，仅需少量示例，显著降低了对数据的依赖，同时保持跨任务性能。此外，还有多种方法改进生成重播框架，如PCLL[265] 、HMI-LAMOL[129] 和SSR[65] 。还有一些方法遵循经验回放的传统设置，如I-LoRA[164]。

4.7 持续对齐

4.7.1 基于正则化的

正则化方法大致可以分为直接正则化[136,209]和间接正则化[11,77,211]两类。

置接正则化是直接影研模型参数以保持先验学习的方法。“例如，ARPER13 个将自适应正则化置接能人训练过程，利用正则化项来直接缓解在学习新对话任务时对先前知识的遗忘。类似地，O-LoRA[209] 利用正交低秩适应 (O-LoRA) 方法，它直接限制梯度更新与先前任务的子空间正交。‍

间接正则化利用任务之间的相似性和重要性等因素，对模型参数施加间接限制。例如， BiHNet [77]利用双层超网络创建特定任务适配器，通过最小化任务干扰来间接保持过去知识。InsCL [211] 利用丰富数据的动态重播，通过重新引入过去任务的关键特征，间接促进持续学习。此外， SLM[11] 引入了动态重参数化机制，根据任务分布调整模型参数，确保每个任务的学习相互独立，从而减少重要历史信息的覆盖。

4.7.2 全梯度的方法

”在持续指令调祝领域””有效管理知识转移和缓解发雄性遗忌是影响语言模型兽样准 es 和灵活性的关键挑战。一些进展专注于创新的梯度操作技术来解决这些问题。 Lee 等人[97]提出了一种方法，

通过增强不同任务之间的梯度对齐，以促进更好的泛化并最小化负迁移。相比之下， Korbak 等人[92]提出了一种框架，用于动态调整学习参数，以在微调过程中保持之前获取的知识。这些方法共同强调了复杂梯度策略在无需牺牲之前学习信息的情况下，优化语言模型在各种语言任务中的适应性的潜力。

4.5.4基于架构的方法。基于架构的方法可以分为模型驱动的[43,208]、适配器驱动的[84,128,140,152,257]和提示驱动的方法[48,109,162,164,168,236,273]。

基于模型的方法会根据新信息动态调整整个网络架构，而无需重新训练整个系统。例如，TPEM 算法[43]采用了一种循环，包括剪枝以消除不那么有用的连接、扩展网络以适应新任务以及使用掩码来选择性地禁用某些路径，从而确保系统的效率和对当前任务的相关性。此外，Wang 等人[208]也利用了 (此处为缺失内容，可能是论文引用)。

持在旧任务上的性能。这是通过有策略地修改或扩展模型的输入空间，将任务的核心本质封装在提示中实现的，这样可以保持核心模型参数不变。例如，LPT [109] 使用二元提示掩码来选择性地剪枝无效的提示向量，提高了计算效率并保留了关键的特定任务知识。相比之下， DYNAINST [141] 则融入了动态重播机制，以选择性地保留能提升学习效率的训练示例，从而优化跨任务的知识保持。此外，ProgPrompt [162] 创新性地按顺序连接特定任务的提示，以累积知识并促进向前迁移，同时不丢失先前信息。这些方法共同推动了基于提示策略的发展，提升了语言模型的可扩展性和效率，促进了终身学习。

4.8 知识编辑持续进行

该领域的研究传统上侧重于单步编辑技术[33,34,133,134,139],模型会经历一次重大更新，以修正或增强其知识库。然而，最近的方法[55,56,61,70,96]提倡持续和逐次的编辑过程，更符合终身学习的理念。这涉及随着时间的推移进行多次小幅度调整，使模型能够适应不断变化的现实需求，无需全面重新训练就能保持相关性和准确性。

持续知识编辑方法主要可以分为三大策略：

外部记忆 (External Memorization) 、全局优化 (Global Optimization) 和局部修改 (Local Modification)。这些方法的详细比较见表3。207。(1)外部记忆方法，如GRACE[55] 和T-Patcher[70], 采用扩展策略来整合新数据。例如， GRACE 使用键值对动态存储新信息，使得模型无需完整重新训练即可访问最新数据。相比之下， T-Patcher 针对模型参数进行精确、定向的调整，以修正特定错误，类似于软件补丁修复bug, 从而确保模型输出的准确性和时效性。(2)全局优化涉及更为全面的更新。

4.9 持续对齐

大型语言模型中的持续对齐对于确保这些模型与人类保持一致至关重要，贯穿其整个生命周期的价值观和社会规范。传统上，对齐是一个一步到位的过程，其中 LLM在预训练和指令调整阶段后对齐[173]。然而，作为需求和期望人工智能系统不断发展，越来越需要采用多步骤对齐方法[248,249,261]，定期重新调整模型以适应新的道德标准和社会价值观。对齐率，这是指使模型与人类价值观保持一致并可能损害其一般性之间的权衡性能，是这一过程中的关键考虑因素[110]。持续对齐可以分为两个主要领域：价值对齐[110,248,249]和安全对齐[150, 243, 261].表 3 提供了这些方法之间的详细比较。（1）在价值对齐中，重点是确保模型的响应符合道德准则，而不会失去以前获得的能力。CPPO [249]等技术实施了加权策略，以平衡新的伦理优先事项与现有知识。COPR [248] 通过动态调整正则化来解决价值对齐背景下的灾难性遗忘基于新的和历史的偏好。同时，Lin等[110]提出模型平均以有效管理对齐税，优化保持性能和遵守更新值之间的平衡。(2)安全对齐专注于保护 LLM 处理的数据的完整性和安全性。它涉及防止有害信息永久化和防止数据泄露的策略。Zhao等[261]有开发了一种遗忘过滤器技术，该技术在模型更新期间优先考虑内容的安全性。詹等人[243]演示最小微调可以轻易地损害已建立的安全措施，突出显示持续需要健全的保护机制。加强 LLM 防止潜在的滥用和不断演变的安全性正如Lermen等[98]和Qi等[150]所指出的那样，威胁、正在进行的研究和方法创新至关重要。这些努力确保了 LLM 与新的安全协议保持一致，它们不会受到新形式的攻击。

4.10 小结

在持续的预培训的基础上，增强了LLM的内部知识，并进一步进行了持续的微调使这些模型适应特定任务，例如文本分类、命名实体识别、关系提取、机器翻译和指令调整。蒸馏、重放、正则化、基于架构和基于梯度的方法用于解决灾难性遗忘和任务干扰等挑战。尽管在取得进步的同时，仍然存在重大挑战，特别是在保持长期绩效和资源效率方面。

图 6.两种终身学习场景的例证

未来的研究应侧重于创新解决方案，以减轻遗忘，增强任务适应性，并发展高效、可扩展的架构，可在各种任务中实现持续性能。

·灾难性遗忘(Catastrophic Forgetting):这是终身学习的核心挑战，新信息可能会抹去模型之前学到的内容。随着LLMs 不断接收到新的数据，如何确保它们在吸收新知识的同时不会丢失过去有价值的信息是一个关键问题[130]。

·塑性-稳定性困境：在塑性(学习新信息的能力)和稳定性(保持旧信息的能力)之间找到合适的平衡至关重要[135]。这种平衡影响模型获取特定领域知识(如医学信息)的同时保持其广泛的一般能力。此外，“对齐税”概念[110]突显了训练LLMs以符合人类价值观的挑战，同时又不损害其在推理和规划等领域的功能。目标是增强安全性和与伦理规范的一致性，而不削弱模型的功能有效性。

·高昂的计算成本 ：全量微调大型语言模型(LLMs), 尤其是参数量达到数十亿级别的模型，其计算需求可能高得无法承受。

·模型权重或预训练数据不可用：由于隐私问题[98,243]、专有限制或商业许可，原始训练数据或模型权重通常无法获取，从而无法进行进一步的微调。

5 方法论：外部知识

持续的预培训和微调对于LLM的终身学习至关重要。但是，随着LLM 的规模越来越大，更强大的是，两个新兴方向在为LLM提供新的外部知识方面越来越受欢迎

而不修改其参数。本调查将基于检索的终身学习和基于工具的终身学习视为两者是实现LLM终身学习的有前途的方法。图 6 中提供了示意图。

5.1 基于检索的终身学习

为什么LLM 需要检索？基于检索的终身学习满足了对大语言的迫切需求

从外部来源获取和整合最新知识的模型[5,81,191]。作为世界的信息

继续快速扩展和演变，在历史数据上训练的静态模型很快就会过时，无法理解或生成有关新发展的内容。例如，考虑一个场景，即一个重要的医疗突破是在模型的最后一次训练更新后宣布的。在这种情况下，从全面的数据库或不断更新的平台（如维基百科）变得非常宝贵。这些外部来源提供庞大的当前知识宝库，为增强静态性质提供了重要的补充资产预训练的LLM [222， 259]。

如何检索？实施这种方法的核心是检索增强生成（RAG），它协同地将 LLM 的深度学习功能与外部数据的动态检索相结合。RAG 型号在生成文本之前，首先使用检索器组件获取相关信息，从而确保内容既更新又符合上下文。此过程不仅丰富了模型的输出，而且还丰富了模型的输出显着扩展了其对较新领域和主题的适用性。我们介绍了几种强调基于检索的方法的适应性和有效性如下：密集通道检索（DPR） [81] 优化通过在密集的向量空间中对查询和文档进行编码来检索过程，从而实现更准确的语义匹配。Trivedi等[191]提出的由思维链（IRCOT）引导的交错检索，在生成过程中嵌入检索步骤。此方法可动态调整检索到的信息随着反应的形成，这在复杂的对话或多回合互动中特别有益。树Kim等[90]开发的澄清（TOC）结构以分层树格式检索知识，在不同级别的查询复杂度下实现精确和相关的信息检索。江等[76]的前瞻性主动检索增强生成（FLARE）主动更新检索数据库以包含最新信息，确保模型的响应及时且知情。自我反省Asai等[5]的Retrieval-Augmented Generation（Self-RAG）利用反馈回路，模型的输出直接影响和完善未来的检索查询，促进持续的自我改进。

5.2 基于工具的终身学习

为什么LLM 需要工具？大型语言模型（LLM）基于工具的终身学习源于必要性将其功能扩展到静态知识之外，并使它们能够与环境进行动态交互[66, 155, 156].在实际应用中，模型执行涉及外部操作的任务通常至关重要直接的文本生成或解释。例如，负责提供实时财务的 LLM建议可能需要访问和处理最新的股票市场数据，使用分析工具来预测趋势或与用于获取特定于客户端的信息的数据库。这样的场景不仅要求模型理解和生成语言，但也要有效地利用外部计算工具，反映人类使用工具的能力增强认知任务[4]。如何使用工具？配备工具的LLM 的开发，通常被称为“工具学习”，改变了这些从静态知识库到能够执行复杂计算任务的动态系统的模型以及与各种API 和软件环境进行交互。这种转变是通过框架实现的旨在教授 LLM 如何有效地集成和利用不同的工具。例如，Chameleon [122] 合成通过利用 LLM、可视化模型、搜索引擎和自定义 Python 函数。类似地，ToolAlpaca 框架 [187] 通过多智能体仿真环境，增强了模型的一般工具使用能力。其他值得注意的框架包括孔子[40]，它采用多阶段学习过程加上反馈机制来完善LLM和GPT4Tools的工具使用熟练程度[233]，集成了多个外部工具以扩展功能预训练模型的覆盖范围。此外，PIBench [148] 和 ToolBench [156] 等更复杂的工具数据集具有旨在提供一个结构化的环境来训练和评估 LLM 的工具使用能力，拓宽了这些模型在实际应用中可以实现的目标的边界。

5.3 总结

建立在持续的预训练和微调的基础上，增强了LLM 的内部知识，为 LLM 配备了通过基于检索和基于工具的终身学习，外部知识大大扩展了他们的能力。

基于检索的方法通过整合实时信息来确保模型保持更新。基于工具的方法使LLM 能够与外部计算工具和 API 进行交互。尽管取得了进步，但挑战依然存在无缝高效地集成这些技术。未来的研究应侧重于改进检索机制，改进工具集成框架，并制定全面的基准来评估在LLMs中融入外部知识。

6 讨论与结论

6.1 现有挑战

优化大型语言模型的终身学习之旅面临着许多重大挑战这源于这些系统的基本特征：

• 灾难性遗忘：这是终身学习的核心挑战，因为新信息可以覆盖模型之前学到了什么。由于 LLM 会不断更新新数据，确保它们保留从过去的培训中获得的宝贵知识，而不会将其丢失到新的和可能不相关的信息中，这仍然是一个关键问题[130]。

• 塑性-稳定性困境：在可塑性（学习新的能力）之间找到正确的平衡信息）和稳定性（保留旧信息的能力）至关重要[135]。这种平衡会影响模型的获取特定领域知识（如医学信息）的能力，同时保持其广泛的基础一般能力。此外，对齐税的概念[110]凸显了培训LLM的挑战在不损害他们在推理和规划等领域的能力的情况下，与人类价值观保持一致。目标是在不削弱模型功能的情况下提高安全性和与道德规范的一致性有效性。

• 昂贵的计算成本：对 LLM 进行全面微调的计算需求，尤其是对于模型具有数十亿个参数，可能会高得令人望而却步。

• ModelWeights 或预训练数据不可用：通常，原始训练数据或模型权重为由于隐私问题[98,243]、专有限制或商业原因，无法进一步完善许可证。

6.2 当前趋势

现有挑战的突出之处在于，大型语言模型的终身学习发展受到其训练高计算成本和强大能力的显著影响。这导致了终身学习方法的几个新趋势：

·从特定任务到一般任务：研究重点已明显转向更一般化的任务，这些任务扩展了模型在不同领域的实用性。这种向诸如指令调优[18]和知识编辑[207]等一般任务的转变，利用了大语言模型的强大泛化能力，使得它们能够在无需为每个专门任务进行大量再训练的情况下处理各种挑战。

·从全量微调到部分微调：鉴于全量微调大型语言模型所需的巨大资源，越来越多地倾向于使用部分微调策略。例如，Adapter 层[59]、提示调整[100]和LoRA[63] 方法只会调整一小部分参数，保留核心模型的同时，有效地实现了对新数据和任务的适应性。

·从内部知识到外部知识：为了克服频繁内部更新的局限性，越来越多地倾向于利用外部知识源。检索增强生成(Retrieval-Augmented Generation,[101])和工具式学习(Tool-based Learning,[155]) 等策略使得LLMs 能够动态地访问和利用当前外部数据。这种方法不仅提升了模型的解决问题能力，还实现了在最小化再训练的情况下持续学习。

6.3 后续步骤

随着语言模型 (LLMs) 的能力增强、计算成本上升以及应用场景拓宽，未来的终身学习将致力于赋予这些模型超越文本模态的更通用能力，同时降低计算开销。

降低成本并处理更具现实性的场景。以下是三个有前景的着力点，有望推动这一领域取得显著进展：

·多模态终身学习：将文本以外的多种模态(如图像、视频、音频、时间序列数据和知识图谱)整合到终身学习范式中，是一个快速发展的研究领域[18,57]。这种方法旨在开发出更全面、更灵活的模型，能够处理和理解更多样化的数据类型，模拟人类类似的学习能力，适应各种感官输入。

·高效终身学习：为了管理训练和更新大型语言模型(LLMs) 所需的计算需求，研究人员正在探索更有效的策略。这些策略包括利用模型剪枝[186]来消除不必要的参数，模型融合[44]来整合知识，以及模型扩展[89,219],在无需大量重新训练的情况下适应性地增加容量。此外，利用当前最先进的LLMs 的上下文学习能力也颇具前景，这些模型支持长达1000万令牌的广泛上下文。例如，Gemini 1.5 Pro[163]仅凭参考材料就能以高精度进行语言翻译，模拟人类的学习环境，展示了其潜力。

·通用终身学习：该领域的最终目标是使LLMs能够主动获取新知识，并通过与其环境的动态交互进行学习，而不仅仅是静态数据集[200]。融合强化学习、基于代理的系统和体感Al的原则可能推动真正通用人工智能的发展。这一雄心勃勃的方向旨在模拟人类的自然终身学习能力，促进对世界的更深入、更具直觉的互动。

6.4 结论

总之，本调查系统地将现有研究归类为12种终身学习场景，并对方法论进行了全面探讨。我们的分析强调了在管理灾难性遗忘、确保计算效率以及在知识获取中保持特异性与泛化之间微妙平衡的重要性。随着领域不断发展，这些高级策略的整合将在塑造下一代Al系统中发挥关键作用，助力它们更接近实现真正的人类式学习和适应能力。

7 鸣谢

本论文的部分工作得到了中国国家自然科学基金(项目编号：62272173)的支持，以及广东省自然科学基金

(项目编号：2024A1515010089,2022A1515010179) 和广东省科技计划项目(项目编号：

2023A0505050106)的资助。本文使用的图标来自https;//www.flaticon.com/ , 由Iconjam、Freepik、Whitevector 、Eucalyp 和Pixel perfect等创作者提供。

8 参考文献

[1]JoshAchiam,Steven Adler,Sandhini Agarwal,Lama Ahmad,llge Akkaya,Florencia Leoni Aleman,Diogo Almeida,Janko Altenschmidt,Sam Altman,Shyamal Anadkat 等.(2023).GPT-4 技术报告.arXiv

[2]AlonAlbalak,Yanai Elazar,Sang Michael Xie,Shayne Longpre,Nathan Lambert,Xinyi Wang,NiklasMuennighoff,Bairu Hou,Liangming Pan,Haewon Jeong, 等，(2024),数据选择对于语言模型的调查，arXiv

[3]RahafAljundi,Francesca Babiloni,Mohamed Elhoseiny,Marcus Rohrbach,和 Tinne Tuytelaars 。2018 年。记忆感知的突触：学习(不)该遗忘什么。在计算机视觉欧洲会议论文集中。139-154页。

[4]KelseyR.Allen,Kevin A.Smith,and Joshua B.Tenenbaum.2020. 通过模拟的快速试验和错误学习支持

灵活的工具使用和物理推理.Proceedings of the National Academy of Sciences 117,47 (2020):29302-

[5]Akari Asai,Zeqiu Wu,Yizhong Wang.Avirup Sil,和Hannaneh Hajishirzi.2023.自我RAG: 通过自我反

思学习检索、生成和批判。在第十二属国际代表学习会议(The Twelth International Conference on Learning

[6]Kartikeya Badola,Shachi Dave,和 Partha Talukdar.2023.参数高效微调方法对于鲁棒连续多语言学习. 于ACL 2023年会议论文集.9763-9780.

[7]Bai,G..He,S.,Liu,K.&Zhao.J.(2022),Incremental Intent Detection for Medical Domain withContrast Replay Networks.In Proceedings of the 2022 Conference on Empirical Methods in Natural

[8]Loic Barrault,Magdalena Marta Biesialska,Marta Ruiz Costa-Jussa,Fethi Bougares,and OlivierGalibert.2020.终身学习机器翻译首次共享任务的结果.2020年EMNLP 会议，第五届机器翻译会议。56-

[9]Alexandre Bérard.2021.多语言神经机器翻译中的连续学习：通过语言特定嵌入。在第六届机器翻译会议论文集。542-565页。

[10]Magdalena Biesialska,Katarzyna Biesialska,和 Marta R.Costa-jussà。2020年。自然语言处理中的持续终身学习：综述。国际计算语言学会议论文集。6523-6541页。

[11]彭博浩，田卓涛，刘书，杨明昌，贾亚雅.可扩展的语言模型与泛在持续学习.第十二届国际代表学习会议论文.

[12]Brown,T.,Mann,B.,Ryder,N.,Subbiah,M.,Kaplan,J.D.,Dhariwal,P.,Neelakantan,A.,Shyam,P..Sastry,G..Askell,A.,et al.(2020)."Language Models Are Few-Shot Learners."In Advances in Neural

[13]赵鹏飞，陈玉波，赵军，王泰锋.2020.基于知识整合网络的增量事件检测.第十一届自然语言处理经验方法研讨会论文集.707-717.

[14]赖月曹，魏浩然，陈博辛，万晓俊。2021.神经机器翻译的持续学习。第十一届北美计算语言学协会会议(North AmericanChapter of the Association for Computational Linguistics,NAACL-HLT) 论文集。3964-

[15]InigoCasanueva,Tadas Temcinas,Danicla Gerz,Matthew Henderson,and Ivan Vulic.2020.Efficient Intent Detection with Dual Sentence Encoders.In Proceedings of the 2nd Workshop on Natural Language Processing for Conversational Al.38-45.

[16]GiuseppeCastellucci,Simone Filice,Danilo Croce, 和 Roberto Basili.2021. 在少量语言中学习解决 NLP 任务.第十三届计算语言学年会和国际自然语言处理联合会议论文集.837-847.

[17]彭程，尹一纯，商立丰，姜欣，秦雨嘉，王枫宇，王志，陈潇，刘志远，刘群.2022.bert2BERT: 预训练语言模型的可重用性研究.第十三届计算语言学年会论文集.2134-2148页.

[18]彭程，朱俊辰，罗旭，沈恒涛，高莲莉，宋景宽.2024.CoIN: 多模大语言模型持续指令调优基准.arXiv预印本，arXiv:2403.08350 (2024).

[ 1 9 ] 陈浩林和菲利普 ·N· 加内尔 . 2024 . “贝叶斯参数效率优化：克服灾难性遗忘的细调方法” . arXiv预 2402.12220(2024).

[20]Chen,Mark,Jerry Tworek,Heewoo Jun,Qiming Yuan,Henrique Ponde de Oliveira Pinto,Jared

Kaplan,Harri Edwards,Yuri Burda,Nicholas Joseph,Greg Brockman,等。2021年。“评估基于代码的大语

[21]陈三元，侯玉台，崔玉明，车万祥，刘婷，余湘展.2020.回忆学习：使用较少遗忘微调深度预训练语言模型.第十一届自然语言处理经验方法会议论文集.7870-7881.

[22]田奇 . 陈(lan Goodfellow),伊恩 · 古德费洛(lan Goodfellow),以及乔纳森·施伦斯(Jonathon Shlens).2015年 .

网络到网络(Net2net): 通过知识迁移加速学习 .ArXiv 预印本，arXiv:1511.05641(2015).

[23]陈武阳，周艳琪，杜楠，黄艳平，陈志峰，崔淑娟。与分布专业专家进行终身语言预训练。机器学习国际学术会议。5383-5395。

[24]Xuxi Chen,ZhendongWang,Daouda Sow,Junjie Yang,Tianlong Chen,Yingbin Liang,

MingyuanZhou,and Zhangyang Wang.2024.直面挑战：硬采样重加权连续训练提升大模型泛化能力。

arXiv预印本，htps Jfarxiv.org/abs/2402.14270 (2024).

[25]陈秀迪，吴辉，石晓东。2023.在少量样本持续关系抽取中的一致原型学习。在计算语言学协会年会论文集。 7 4 0 9 - 7 4 2 2页。

[26]陈怡和何亮。2023年。SKD-NER: 基于跨度的强化学习知识蒸馏持续命名实体识别。在自然语言处理经验

方法会议论文集。 6 6 8 9 - 6 7 0 0 页。

[27]陈一凡，胡明浩，王长建，王安坤，王伯阳，卢西成。类增量少弹命名实体识别的相似性驱动自适应原型网络。 IEEE 人工智能工具国际会议(ICTAI)。IEEE 219 -227。

[28]陈志远和刘冰.2018.终身机器学习.第1卷.施普林格出版社。

[29]AakankshaChowdhery,Sharan Narang,Jacob Devlin,Maarten Bosma,Gaurav Mishra,Adam Roberts,Paul Barham,Hyung Won Chung,Charles Sutton,Sebastian Gehrmann,等.2023.Palm: 通过路

[30]TogetherComputer.2023.红睡衣：一个用于训练大型语言模型的开放数据集。 https://qithub.com/tagethercomputer/RedPaiama-Data [31]Andrea Cossu,Tinne Tuytelaars,Antonio Carta,Lucia Passaro,Vincenzo Lomonaco,and Davide Bacciu.2022.连续预训练缓解了语言和视觉模型中的遗忘。arXiv预印本，

[32]李翠，戴庆阳，余嘉欣，胡成伟，程佳阳，易竞杰，肖玉华.2021.利用关系原型精炼样本嵌入以增强持续关系抽取.第十三届计算语言学年会和国际自然语言处理会议论文集.232-243.[33]戴大迈，李东，郝亚如，隋志芳，常宝宝，魏扶如.2021.预训练变压器中的知识神经元.arXiv 预印本， arXiv:2104.08696

(2021).[34]尼古拉·德卡奥，威尔克·阿齐兹，伊万·蒂托夫.2021.在语言模型中编辑事实知识.arXiv预印本，arXiv:2104.08164(2021).[35] 马蒂亚斯·德朗格，拉哈夫·阿尔朱尼，马尔卡.马萨纳，莎拉·帕里斯奥，许嘉，阿莱什·伦迪西斯，格雷戈里·斯拉巴乌，廷尼·图耶特拉斯.2021.持续学习调查：在分类任务中抵抗遗忘. 《模式分析与机器智能》杂志，卷44,第7期(2021),3366-3385.[36]丁宁，徐光伟，陈雨琳，王晓

斌，韩旭，谢鹏军，郑浩涛，刘子渊.2021.Few-NERD: 一个基于少量示例的命名实体识别数据集.第十三届计算语言学年会和国际自然语言处理会议论文集.3198-3213.[37]贝扎·埃尔米斯，乔万尼·扎佩拉，马丁. 维斯特巴，阿迪蒂亚·罗瓦尔，塞德里克·阿夏姆博.2022.基于Transformer 的记忆高效持续学习.《神经信息处理系统》,卷35(2022),10629-10642.[38]卡洛斯.埃斯科龙诺，玛尔塔·R.科斯塔-儒萨，何塞·A.丰洛萨.

2019.通过增量训练从双语到多语神经机器翻译.第十三届计算语言学年会学生研究工作坊论文集.236-242. [39]弗利赫·戈齐.费布林安托，冯霞，克里斯汀·摩尔，昌达·塔帕，查鲁·.阿加沃尔.2023.图形终身学习：综述. 《计算机智能杂志》,卷18,第1期(2023),32-51.[40]高慎，石政良，朱明航，方 Bowen, 辛新，任鹏杰，陈珠敏，马俊，任兆春.2024.孔子：通过自我反思反馈的迭代工具学习。在《人工智能》会议论文集

中，卷38.18030-18038.[41]加西亚，诺亚·康斯坦特，安库尔·帕里克，奥尔汉·菲拉特.2021.通过词汇替换实现多语言机器翻译的持续学习.第五十四届北美计算语言学协会会议论文集：人类语言技术.1184-1192. [42]耿斌宗，杨民，袁发杰，王书朋，敖翔，许睿峰.2021.对于终身情感分类的迭代网络剪枝与不确定性正

则化.第二十四届国际ACM SIGIR信息检索会议论文集.1229-1238.[43]耿斌宗，袁发杰，徐谦城，沈英许睿峰，杨民.2021.通过迭代网络剪枝、扩展和遮罩进行任务导向对话系统的持续学习.第十三届计算语言学 年会和国际自然语言处理会议论文集.517-523.[44]查尔斯·戈达德，沙曼尼.锡里沃丹哈，马利克·艾哈格希， 卢克·梅耶斯，弗拉德·卡普库金，布莱恩·本尼迪克特，马克·麦克奎德，雅各布·索拉韦茨.2024.Arcee 的

MergeKit:大型语言模型合并工具包.arXiv 预印本， arXiv:2403.13257(2024).[45] 埃芙格利亚·戈杜洛，蒂莫西·勒索特，马格努斯·博曼，乔亚基姆·尼尔韦.2023.语言变化下的持续学习研究.arXiv预印本

arXiv:2311.01200(2023).[46] 郭书豪，胡波杰，冯洋.2022.在低遗忘风险区域的神经机器翻译持续学习. 第二十七届EMNLP会议论文集.1707-1718.[47]郭家锋，周长江，张如晴，陈江晖，马泰斯·德·里克，范一

星，程学奇.2024.CorpusBrain++: 面向知识密集型语言任务的持续生成预训练框架.arXiv预印本，

arXiv:2402.16767(2024).[48] 郭艳辉，许少渊，傅金苗，刘家凯，董朝生，王柏源.2024.Q-Tuning: 基 于队列的提示调参方法，用于终身少量样本语言学习.(2024).[49]吉提·古普塔，本杰明·瑟里恩，阿卜杜勒 ·伊班，马茨·莱昂·里希特，昆汀·格雷戈里·安东尼，尤金·贝尔柳索夫斯基，艾琳娜·里什，蒂莫西·勒索特.2023. 大型语言模型的持续预训练：如何重新加热你的模型?.ICML2023 年有效系统研讨会工作坊论文.[50] 格尔鲁兰·古鲁兰，迈克·刘易斯，阿里·霍尔茨曼，诺亚·A·史密斯，卢克·泽特尔迈耶.2022.DEMix 层：为模块化语言建模分离领域.第五十四届北美计算语言学协会会议论文集：人类语言技术.5557-5576.[51]格尔鲁兰 ·古鲁兰，安娜·马拉索维奇，斯威巴哈·斯威亚米迪帕，洛·凯尔，伊兹·贝蒂吉，道格·唐尼，诺亚·A·史密斯.2020. 不要停止预训练：使语言模型适应领域和任务.第五十三届计算语言学年会论文集.8342-8360.[52]韩如君，任翔，彭楠云.2020.Econet:针对事件时间推理的有效持续预训练语言模型.arXiv预印本，

arXiv:2012.15283(2020).[53]韩旭，戴逸，高天宇，林彦楷，刘子渊，李鹏，孙茂松，周界.2020.通过记忆回放激活和巩固的持续关系学习.第五十三届计算语言学年会论文集.6429-6440.[54]韩旭，祝浩，余鹏飞，王紫韵，姚远，刘子渊，孙茂松.2018.FewRel:大规模监督少数样本关系分类数据集及其最先进的评估.第二十五届EMNLP 会议论文集.4803-4809.[55]托马斯·哈特维格森，斯旺米·桑卡拉南拉扬，哈米德·帕兰吉，尹金，马尔济希·加斯米.2022.GRACE 中的老化：使用键值适配器进行终身模型编辑.(2022).

[56]PeterHase,Mona Diab,Asli Celikyilmaz,Xian Li,Zornitsa Kozareva,Veselin Stoyanov,Mohit Bansal, and Srinivasanlyer.2023.“衡量、更新和可视化语言模型中的事实信念的方法.”第五十三届欧洲计算语言学协

会会议论文集.2714-2731.

何景涵，郭海云，唐明，王金桥。2023年。大型多模态模型的持续指令调优。arXiv预印本，

https://arxiy.org/abs/2311.16206 (2023年)。

[58]何天星，刘军，赵景贤，刘兵，彭富春。开放域对话响应模型预训练调优中的遗忘问题分析。计算语言学协会欧洲分会会议论文集。1121-1133。

[59]NeilHoulsby,Andrei Giurgiu,Stanistaw Jastrzebski,Bruna Morrone,Quentin De Laroussilhe,Andrea

Gesmundo,MonaAttariyan,and Sylvain Gelly.2019.参数高效迁移学习方法在自然语言处理中的应用.第36

[60]EduardHovy、Mitch Marcus、Martha Palmer、Lance Ramshaw 和 Ralph Weischedel.2006.

OntoNotes:迈向90%解决方案.出席北美ACL 的人类语言技术会议。57-60页。

[61]胡晨辉，曹鹏飞，陈玉波，刘康，赵军。2024.WilKE: 终身知识编辑的智慧层知识编辑器。arXiv 预印本，

https://arxiv.org/abs/2402.10987(2024)

[62]程伟，杨德清，金浩亮，陈镇，萧玉华。 2022年。通过原型对比学习改进连续关系抽取。在《计算语言学 国际会议》论文集。1885-1895页。

[63]EdwardJ.Hu,Philip Wallis,Zeyuan Allen-Zhu,Yuanzhi Li,Shean Wang.Lu Wang.Weizhu Chen,等。2021.LoRA: 大语言模型的低秩适应。在国际学习代表作会议(International Conference on Learning

[64]丁华，沈亦琳，赵昌生，许炎昌，金红霞。2021.自动超参数优化的自然语言理解领域分类连续学习。第十一届北美计算语言学协会会议(North American Chapter of the Association for Computational Linguistics,

[65]黄建恒，崔磊阳，王安特，杨成义，廖心挺，宋林峰，姚俊峰，苏金松。2024.使用自我合成复习减轻大型语言模型中的灾难性遗忘。 arXiv预印本，https://arxiv.org/abs/2403.01244 (2024)。

[66]黄杰瑞、帕斯纳·帕拉塔萨拉西、梅赫迪·雷扎霍拉扎德和萨拉特·昌达尔.2024年.朝向连续学习语言模型的实用工具使用.arXiv预印本，arXiv:2404.09339 (2024).

[67]黄开宇，李鹏，马进，刘洋。2022。基于熵的多语言神经机器翻译增量学习词汇替代。自然语言处理经验方

法会议论文集。10537-10550。

[68]黄开宇，李鹏，马进，姚婷，刘洋。2023。多语言神经机器翻译增量学习中的知识迁移。计算语言学协会年会论文集。15286-15304。

[69]黄宇凡，张砚哲，陈嘉傲，王雪芝，杨迪逸。2021.基于信息解耦的持续学习文本分类。第十一届北美计算语言学协会会议(North American Chapter of the Association for Computational Linguistics,NAACL-HLT )

[70]黄泽宇，沈一康，张晓峰，周杰，荣文格，熊章.2022.Transformer-Patcher: 一次错误等同于一个神经元.第十一届国际代表学习会议论文.

[71]AdamIbrahim,Benjamin Therien.Kshitij Gupta,Mats L.Richter.Quentin Anthony.Timothée Lesort,

EugeneBelilovsky,and lrina Rish.2024.“Simple and Scalable Strategies for Continual Pre-Training of

[72]AshishJaiswal,Ashwin Ramesh Babu,Mohammad Zaki Zadeh,Debapriya Banerjee,和 Fillia

Makedon.2020.对抗性自我监督学习综述.Technologies 9,no.1(2020):2.

[73]JoelJang,Seungone Kim,Seonghyeon Ye,Doyoung Kim,Lajanugen Logeswaran,Moontae Lee，Kyungiae Lee,and Minjoon Seo.2023.探索训练专家语言模型的优势：超越指令调优，在国际机器学习会议上.

[74]Joel Jang,Seonghyeon Ye,ChanghoLee,Sohee Yang,Joongbo Shin,Janghoon Han,Gyeonghun Kim,and Minjoon Seo.2022.TemporalWiki:A Lifelong Benchmark for Training and Evaluating Ever-Evolving Language Models.In Proceedings of Conference on Empirical Methods in Natura!

Language Processing.6237-6250.

[75]王杰，叶智浩，刘棒，赵瑞辉，郑建国，李梦瑶，李志勇，杨玉久，郑业峰.2023.Ica-proto:迭代跨模态原型网络在增量元关系分类中的应用.第39届欧洲语言学会议(EACL) 发现论文集.2275-2284页.

[76]郑保江， Frank F.Xu,吕玉高，志清孙，钱莉，Jane Dwivedi-Yu,杨一鸣，Jamie Callan,及Graham Neubig.2023. 活动检索增强生成.第十三届自然语言处理会议论文集.7969-7992页。

[77]金析森，林渝辰，罗斯坦·莫哈默德，任翔.2021.学而时习之：面向元学习的终身知识积累.《EMNLP 发现》 .714-729.

[78]金析森，张德郊，朱恒辉，萧伟，李上文，魏晓凯，安德鲁·阿诺德，熊仁.2022.终身预训练：持续适应新兴语料库的语言模型.北美计算机语言学协会人类语言技术会议论文集.4764-4780.

[79]MladjanJovanovic 和 Peter Voss.2024. 实时学习在大型语言模型中的趋势与挑战：批判性回顾。arXiv 论文预印本，DOl:arXiv:2404.18311(2024)。

[80]KasidisKanwatchara,Thanapapas Horsuwan,PiyawatLertvittayakumjorn,Boonserm Kijsirikul,和Peerapon Vateekul.2021.合理的LAMOL: 基于理性的一生学习框架。

自然语言处理联合会议。 2942-2953。

[81]Vladimir Karpukhin,Barlas Oguz,Sewon Min,Patrick Lewis,Ledell Wu,Sergey Edunov,Danqi Chen,and Wen-tau Yih.2020.Dense Passage

Retrievalfor Open-Domain Question Answering.In Proceedings of Conference on Empirical Methods in Natural Language Processing.6769-6781. [82]Zixuan Ke,HaoweiLin,Yijia Shao,Hu Xu,Lei Shu,and Bing Liu.2022.Continual Training ofLanguage Models for Few-Shot Learning.InProceedings of Empirical Methods in Natural Language Processing.10205-10216.

[83]Ke,zixuan,BingLiu,Nianzu Ma,Hu Xu,and Lei Shu."Achieving Forgetting Prevention and

Knowledge Transfer in Continual Learning."In Advances in Neural Information Processing Systems,

[84]Ke,zixuan,Bing Liu,wenhan Xiong,Asli Celikyilmaz,and Haoran Li."Sub-network Discovery and

Soft-masking for Continual Learning of Mixed Tasks."In Proceedings of the 2023 Conference on Empirical

[85]Zixuan Ke,Bing Liu,Hu Xu,and Lei Shu.2021.CLASSIC:Continual and Contrastive Learning of Aspect Sentiment Classification Tasks.In

Proceedingsof Conference on Empirical Methods in Natural Language Processing.

[86]ZixuanKe,Yijia Shao,HaoweiLin,Tatsuya Konishi,Gyuhak Kim,and Bing Liu.2023.Continual Pre-training of Language Models.In The Eleventh

InternationalConference on Learning Representations.

[87]Ke,zixuan,HuXu,and Bing Liu.“2021.适应BERT进行连续学习的一系列观点情感分类任务。”第十一届

北美计算语言学协会会议(North American Chapter of the Association for Computational Linguistics,Human

[88]HudaKhayrallah,Brian Thompson,Kevin Duh,and Philipp Koehn.2018.正则化训练目标对于神经机器翻译领域适应的持续训练。在神经机器翻译与生成工作坊 proceedings.36-44.

[89]Dahyun Kim,Chanjun Park,Sanghoon Kim,Wonsung Lee,Wonho Song,Yunsu Kim,Hyeonwoo Kim,

Yungi Kim,Hyeonju Lee,Jihoo Kim等.2023.太阳10.7b: 通过简单而有效的深度扩展大规模语言模型.arXiv

[90]GangwooKim,Sungdong Kim,Byeongguk Jeon,Joonsuk Park,and Jaewoo Kang.2023.Tree of Clarifications:Answering Ambiguous Questions

withRetrieval-Augmented Large Language Models.In Proceedings of Conference on Empirical Methods in Natural Language Processing.996-1009. [91]James Kirkpatrick,Razvan Pascanu,Neil Rabinowitz,Joel Veness,Guillaume Desjardins,Andrei A.

Rusu,KieranMilan,John Quan,Tiago Ramalho,Agnieszka Grabska-Barwinska, 等。2017 年。“神经网络

[92]Tomasz Korbak,Hady Elsahar,German Kruszewski,和 Marc Dymetman.2022.《在条件语言模型中控

制遗忘问题》 .第十九届国际机器学习会议.PMLR,11499-11528.

[93]RiteshKumar,Saurabh Goyal,Ashish Verma,and Vatche Isahagian.2023.ProtoNER:基于原型网络的命名实体识别 few-shot incremental learning 方法.在国际商业过程管理会议上发表.70-82页.

[94]StefanLarson,Anish Mahendran,Joseph J.Peper,Christopher Clarke,Andrew Lee,Parker Hill,

JonathanK.Kummerfeld,Kevin Leach,Michael A.Laurenzano,Lingjia Tang 等。2019.用于意图分类和出

界预测的评估数据集。在《自然语言处理与计算语言学研讨会》(Empirical Methods in Natural Language

[95]AngelikiLazaridou,Adhi Kuncoro,Elena Gribovskaya.Devang Agrawal,Adam Liska,Tayfun Terzi,

MaiGimenez,Cyprien de Masson d'Autume,Tomas Kocisky,Sebastian Ruder,等 .2021 . 关注差距：评估神

经语言模型的时间泛化能力.在《神经信息处理系统》(Advances in Neural Information Processing Systems)

[96]KyungjaeLee,Wookje Han,Seung-won Hwang,Hwaran Lee,Joonsuk Park,and Sang-Woo Lee.

2022.插件式适应对于持续更新的问答 . 在ACL 2022的发现。438-447页。

[97]SeanieLee,Hae Beom Lee,Juho Lee,和 Sung Ju Hwang.2021.顺序爬行动物：多任务学习中的跨任务梯度对齐。在国际学习代表会议(International Conference on Learning Representations,ICLR)。

[98]SimonLermen,Charlie Rogers-Smith,和 Jeffrey Ladish.2023.“Lora微调高效地抵消了lama 2-chat 70b 的安全训练.”arXiv 预印本，https:/larxiv.org/abs/2310.20624 (2023).

[99]Timothy Lesort.Vincenzo Lomonaco,Andrei Stoian,Davide Maltoni,David Filliat,和 Natalia Diaz-

Rodriguez.2020.持续学习对于机器人技术：定义、框架、学习策略、机遇与挑战.《信息融合》(Information

[100]BrianLester,Rami Al-Rfou, 和 Noah Constant.2021.规模的力量：参数高效的提示调优。在《自然语

言处理实验方法》会议论文集。3045-3059页。

[101]Lewis,Patrick,EthanPerez,Aleksandra Piktus,Fabio Petroni,Vladimir Karpukhin,Naman Goyal,

HeinrichKüttler,Mike Lewis,Wen-tau Yih,Tim Rocktaschel,等. “增强检索的生成方法 for 高度依赖知识的自

[102]李陈安和李宏义.2024.持续预训练中遗忘现象的考察.ArXiv预印本，https://arxiv.org/abs/2401.03129 (2024).

[103]李国盾，翟雨辰，陈强龙，高星，张冀，张垠.2022.连续少量样本意图识别.第29届国际计算语言学会议论文集.333-343页.

[104]贾莉，张云燕，杨一凡，安志成，郑叶锋.2022.BNU: 一种增量事件检测的平衡归一化不确定性模型.在 IEEE 国际语音与信号处理会议.6352-6356.

[105]李香Lisa Xiang和梁赵尔Percy Liang.2021.前缀调优：优化生成连续提示。在第十一届计算语言学年会和国际自然语言处理联合会议论文集。4582-4597页。

[106]李志忠和霍伊梅.2017.不忘学习. 《模式分析与机器智能》杂志40,12(2017),2935-2947.[107]

李晨亮，李洪亮，关昌浩，刘庆斌，刘建，徐金安，赵哲.2023.增量设置下的新槽检测.《EMNLP 2023发现》

737-746.[108]李阳硕和吴军.2024.InfLoRA: 无干扰低秩适应性持续学习.arXiv 预印本

arXiv:2404.00228(2024).[109]李祖杰，沈峰伟，金洁，钱玉喜，郝正宏，韩冰.2023.提示可以很好地玩抽奖游戏：通过抽奖提示调优实现终身信息提取. 《计算语言学年会论文集》 .277-292.[110]林永，林航宇，吴巍，邓诗哲，刘剑萌，张继鹏，齐盼，王浩翔，胡文斌，张涵，东瀚，彭睿杰，赵瀚，姜楠，许恒，董渊，张彤.2023. 通过RLHF 缓解对齐税.arXiv:arXiv:2309.06256.[111] 林一，徐畅华，余航，田品卓，洛湘枫.2023.基于改进知识蒸馏的增量事件检测. 《神经计算》551(2023),126519.[112]林正豪，郭志斌，孔令，沈叶龙，沈悦容，徐若宸，陈霖，杨宇久，谷建娇，顿楠，等.2024.Rho-1: 并非所有令牌都需要.arXiv 预印本

arXiv:2404.07965(2024).[113] 刘浩坤，达里克.谭，穆赫特，杰·莫哈塔，康浩涛，摩希特.班萨尔，科林·A·拉斐尔.2022.少样本参数高效微调优于上下文学习. 《神经信息处理系统研讨会》35(2022),1950-1965.

[114]刘俊鹏，黄楷宇，余浩，李九义，苏晋松，黄登根.2023.通过双重要素基模型分割的多语言神经机器翻译持续学习. 《自然语言处理会议论文集》 .12011-12027.[115]刘敏茜，张世宇，黄立夫.2022.增量提示：用于终身事件检测的插值记忆提示. 《国际计算语言学会议论文集》 .2157-2165.[116]刘敏茜，黄立夫.2023. 分类器漂移的实证研究：团队协作并不总是好的.《ACL 2023发现》 .2241-2257.[117]刘庆斌，曹鹏飞，刘超，陈健松，蔡迅良，杨帆，何世珠，刘康，赵俊.2021.通过知识保持网络实现对话状态跟踪的领域终身学习.

《自然语言处理会议论文集》.2301-2311.[118]刘亚超，郝延超，刘晓龙，李波，隋典波，何世珠，刘康，赵俊，陈曦，张宁宇，等.2023.结构巩固网络的分类终身学习用于意图检测.《ACL 2023发现》 .293-306.

[119]刘晓燕，何世珠，刘康，赵俊.2021.终身意图检测的多策略再平衡方法.arXiv预印本arXiv:2108.04445(2021).

[120] 刘星坤，阿什吉·艾什吉，波莱尔·斯维特奥詹斯基，维尔娜·赖瑟尔.2021.构建对话代理的自然语言理解服务基准. 《口语对话系统交互的自然性和灵活性增强：第十届国际研讨会》 .

165-183.[121]卢丹尼尔，弗朗西斯科·巴贝里，里卡多·内韦斯，路易斯·埃斯皮诺萨·安克，何塞·卡马乔-科尔多斯.2022.时间语言模型：来自Twitter的历时语言模型. 《计算语言学协会年会系统演示论文集》 .251-260.

[122]卢攀，彭宝林，陈恒，米歇尔·加利，郭凯伟，吴茵年，宋春纯，高剑锋.2024.Chameleon: 大型语言模型

的即插即用组合推理.《神经信息处理系统研讨会》36(2024).[123]罗宇婷，林晓天，杨振，茅凡东，周杰，赵越.2023.通过自适应分类准则减轻增量任务学习中的灾难性遗忘.arXiv 预印本 arXiv:2305.12270(2023).

[124]卢开恳，大卫·卡沙比，苏奇甘南，卡丽莎玛·曼迪阿姆，诺亚·A·史密斯.2022.时间不等人!时间错配的分析与挑战.《北美计算语言学协会会议论文集：人类语言技术》 .5944-5958.[125]马若天，陈炫庭，王振林，

王俊哲，韩恬恬，韩文辰，陈晓光，郭祥，陈云文.2023.学习“O”有助于学习更多：处理类别增量命名实体识别 中的未标记实体问题. 《计算语言学年会论文集》 .5959-5979.[126]马圣坤，韩嘉乐，李怡良，冯博.2024. 让预训练语言模型成为更好的连续少数样本关系抽取器.arXiv预印本 arXiv:2402.15713(2024).[127] 马世 荣，黄慎，黄书琳，王晓斌，李杨宁，郑海涛，薛鹏君，黄菲，蒋勇.2023.Ecomgpt-ct: 基于半结构化数据的电 子商务大语言模型的持续预训练.arXiv 预印本arXiv:2312.15696(2023).[128] 马德托，林兆江，周振鹏，月 成勋，保罗·A·克罗克，滕博，周宇，陈恩俊，方佩，王子贵.2021.任务导向对话系统的持续学习.《自然语言处 理会议论文集》 .7452-7467.[129]马艾拉，崎田香介，藤木健太，园村满，岩本万茂.2023.基于海马记忆索引的生成式回放

[131]Sanket Vaibhav Mehta,Darshan Patil,Sarath Chandar,和 Emma Strubell.2023.终身学习中预训练作

用的实证研究. Journal of Machine Learning Research,24(214):1-50 (2023).

[132]Angelo G.Menezes,Gustavo de Moura,Cezanne Alves,and Andre CPLF de Carvalho."Continual

ObjectDetection:A Review of Definitions,Strategies,and Challenges."Neural Networks 161 (2023):476-

[133]Meng,Kevin,David Bau,Alex Andonian,and Yonatan Belinkov."Locating and Editing Factual

Associationsin GPT."In Advances in Neural Information Processing Systems,35(2022):17359-17372. [134]Meng,Kevin,Arnab Sen Sharma,Alex Andonian,Yonatan Belinkov,and David Bau.“Mass-Editing Memory in aTransformer."arXiv preprint arXiv:2210.07229 (2022).

[135]MartialMermillod,Aurélia Bugaiska,and Patrick Bonin."The Stability-Plasticity Dilemma:

Investigatingthe Continuum from Catastrophic Forgetting to Age-Limited Learning Effects."Frontiers in

[136]Fei Mi.Liangwei Chen,Mengjie Zhao,Minlie Huang,and Boi Faltings.2020.Continual Learning for

NaturalLanguage Generation in Task-oriented Dialog Systems.In Proceedings of the 2020

[137]Umberto Michieli 和 Mete Ozay.2024.HOP 迈向NLP 的持续学习的下一个任务和领域.arXiv预印本，

[138]Swaroop Mishra,Daniel Khashabi,Chitta Baral,and Hannaneh Hajishirzi.2022.通过自然语言众包实

标题：指南。在计算语言学年会论文集。3470-3487页。

[139]Mitchell,E.,Lin,C.,Bosselut,A.,Finn,C.,&Manning,C.D.(2021).Fast model editing at scale.

arXivpreprint arXiv:2110.11309.

[140]选择模块。[未标注日期]。 SAPT: 大型语言模型的参数高效连续学习共享注意力框架。([未标注日期])。

[141]Mok,J.,Do,J.,Lee,S.,Taghavi,T.,Yu,S.,&Yoon,S.(2023). 大规模终身学习中的上下文指令和应对

[142]Natawut Monaikul,Giuseppe Castellucci,Simone Filice, 和 Oleg Rokhlenko.2021.连续学习在命名实

体识别中的应用.《人工智能国际联合会议》(AAAI Conference on Artificial Intelligence),第35卷。13570-

[143]Shawn N.Murphy,Griffin Weber,Michael Mendis,Vivian Gainer,Henry C.Chueh,Susanne

Churchill,andIsaac Kohane.2010."Serving the Enterprise and Beyond with Informatics for Integrating

Biologyand the Bedside (i2b2)."Journal of the American Medical Informatics Association 17,no.2 (2010):

[144]Alex Nichol,Joshua Achiam,and John Schulman.2018.On first-order meta-learning algorithms.arXiv preprint arXiv:1803.02999 (2018).

[145]Abiola Obamuyide 和 Andreas Vlachos.2019.Meta-Learning 提升终身关系抽取.代表自然语言处理的

第4次工作研讨会论文集 .224-229 页.

[146]Parisi,German l.,Ronald Kemker,Jose L.Part,Christopher Kanan,and Stefan Wermter."Continual Lifelong Learningwith Neural Networks:A Review."Neural Networks 113 (2019):54-71.

[147]Ramakanth Pasunuru,Veselin Stoyanov,和 Mohit Bansal.2021.连续少量样本学习用于文本分类.第十

一届自然语言处理经验方法会议论文集.5688-5702页.

[148]Shishir G.Patil,Tianjun Zhang,Xin Wang,and Joseph E.Gonzalez.2023.Gorilla: 一个大型语言模型

与海量API 连接。arXiv预印本， https://arxiy.org/abs/2305.15334 (2023).

[149]裴尔 (Judea Pearl).2009. 统计学中的因果推断：概述。([2009])

[150]许湘雨，曾艺，谢挺浩，陈品宇，贾若熙，普拉特·米塔尔，彼得·亨德森.2023.调整后的语言模型微调会损害安全性，即使用户并无此意!预印本.arXiv:2310.03693(2023).

[151]田静、王红、埃尔舍里夫和严思锋.2021.社交媒体上的仇恨言论分类的终身学习.北美计算语言学协会人

类语言技术会议论文集 . 2304- 2314 .

[152]钦成伟，陈晨，沙菲克 · 乔蒂 .2023 .动态模块扩展与适应的终身序列生成 .第十三届自然语言处理经验方法

会议论文 .

[153]钦成伟和肖特 · 乔蒂 .2021 .LFPT5: 基于T5 提示调优的终身少量样本语言学习统一框架 . 在国际学习表示会

议上发表 .

[154]钦程伟和肖提·乔蒂.2022.基于嵌入空间正则化和数据增强的连续少量关系学习.第一届计算语言学年会论

Lin,Y.,Chen,W.,Ding,N.,Cui,G.,Zeng,Z.,Huang,Y.,Xiao,C.,Han,C., 等。2023.

基础模型下的工具学习。 arXiv预印本， https;/arxiv.org/abs/2304.08354 (2023)。

[156]Qin.Y..Liang.S.,Ye,Y.,Zhu,K.,Yan,L..Lu,Y.,Lin,Y.,Cong,X.Tang,X..Qian.B.. 等。2023.

Toollm: 助力大型语言模型掌握16000+实际世界APl。arXiv预印本，https://arxiv.org/abs/2307.16789

[157]Qin,Yujia,Cheng Qian,Xu Han,Yankai Lin,Huadong Wang,Ruobing Xie,Zhiyuan Liu,Maosong

Sun,and Jie Zhou."Recyclable Tuning for Continual Pre-Training."In Proceedings of the 2023 Conference

[158]刘志远，李鹏，孙茂松，秦玉佳，张嘉杰，周杰。 ELLE: 新兴数据的高效终身预训练。计算语言学协会的调 查结果：ACL2022。2789 -2810。

[159]Shengjie Qiu,Junhao Zheng,Zhen Liu,Yicheng Luo,and Qianli Ma.2024.Incremental Sequence Labeling:A Tale of Two Shifts.arXiv preprintarXiv:2402.10447 (2024).

TowardsLifelong Learning of Large Language Models:A Survey 33

[160]AlexRadford,Jong Wook Kim,Chris Hallacy,Aditya Ramesh,Gabriel Goh,Sandhini Agarwal,Girish Sastry,Amanda Askell,Pamela Mishkin,Jack Clark, 等 . 2021 . 自然语言监督下学习可迁移的视觉模型 . 在国际机器学习会议 .8748-8763 .

[161]Alex Radford,Karthik Narasimhan,Tim Salimans,llya Sutskever, 等.2018年.通过生成预训练改善语言

[162]Anastasia Razdaibiedina,Yuning Mao,Rui Hou,Madian Khabsa,Mike Lewis,and Amjad Almahairi. 2022. 进化式提示：语言模型的持续学习.第十一届国际代表学习会议论文.

[163]MachelReid,Nikolay Savinov,Denis Teplyashin,Dmitry Lepikhin,Timothy Lillicrap,Jean-baptiste

Alayrac,RaduSoricut,Angeliki Lazaridou,Orhan Firat,Julian Schrittwieser, 等.(2024).Gemini 1.5: 在数百

[164]WeijieyingRen,Xinlong Li,Lei Wang,Tianxiang Zhao,and Wei Qin.2024.Analyzing and Reducing Catastrophic Forgetting in Parameter Efficient

Tuning.arXivpreprint arXiv:2402.18865 (2024).

[165]Michele Resta 和 Davide Bacciu.2024. 自动生成的循环神经机器翻译回忆。arXiv:arXiv:2403.13130

[166]Paul Röttger 和 Janet Pierrehumbert.2021.时间适应BERT 及其在下游文档分类任务上的性能：来自社交媒体的洞察。在EMNLP 2021发现论文集。2400-2412页。

[167]Anurag Roy,Riddhiman Moulick,Vinay KVerma,Saptarshi Ghosh,and Abir Das.2024.Convolutional Prompting meets Language Models for

ContinualLearning.arXiv preprint arXiv:2403.20317 (2024).

[168]Thomas Scialom,Tuhin Chakrabarty,和 Smaranda Muresan.2022.调整后的语言模型是连续学习者。

在自然语言处理经验方法会议论文集。6107-6122页。

[169]Khadija Shaheen,Muhammad Abdullah Hanif,Osman Hasan,和 Muhammad Shafique.2022.实际环

境中的持续学习：算法、挑战与框架.《智能与机器人系统》(Journal of Intelligent &Robotic Systems)105(1)

[17 0]Shao,Chenze 和 Feng,Yang 。 2022 年。超越连续学习的灾难性遗忘：神经机器翻译的平衡训练。在计

算语言学协会年会论文集。2023-2036页。

[171]邵一佳，郭逸多，赵东艳，刘兵.2023.基于标签生成的增量分类学习.第十九届计算语言学年会论文集.

[172]Noam Shazeer,AzaliaMirhoseini,Krzysztof Maziarz,Andy Davis,QuocLe,Geoffrey Hinton,and Jcff Dean.2016.Outrageously Large Neural

Networks:TheSparsely-Gated Mixture-of-Experts Layer.In International Conference on Learning Representations.

[173]沈天浩，金仁仁，黄玉飞，刘创，董伟龙，郭子善，吴新维，刘艳，熊德义.2023.大语言模型对齐：综述. arXiv预印本，arXiv:2309.15025(2023).

[174]Shen,Y.,Zeng,X.,&Jin,H.(2019).A Progressive Model for Continual Learning of Semantic Slot

Filling.In Proceedings of the Conference on Empirical Methods in Natural Language Processing and the

[175]唐一康，张哲宇，曹天佑，谭慎，陈振芳，甘创.2023.模块式大语言模型：从未经过滤的数据中学习模块化模型 .ArXiv 预印本， https://arxiv.orglabs/2306.0464Q (2023).

[176]海州市，子浩许，恒毅王，韩逸秦，文远王，一斌王，和昊王.2024年.大规模语言模型的持续学习：综述. arXiv预印本，arXiv:2404.16789 (2024).

[177]Hanul Shin,Jung Kwon Lee,Jaehong Kim,and Jiwon Kim.2017. 深度生成式重播在连续学习中的应用. 《神经信息处理系统》(Advances in Neural Information Processing Systems),30(2017).

[178]Karan Singhal,Shekoofeh Azizi,Tao Tu,S Sara Mahdavi,Jason Wei,Hyung Won Chung,Nathan

Scales,Ajay Tanwani,Heather Cole-Lewis,Stephen Pfoht,等.(2023).大语言模型蕴含医学知识.Nature 620,

[179]JamesSeale Smith,胡炎昌，张凌宇，华婷，Zsolt Kira,沈以琳，金红霞.2023.连续扩散：基于c-lora的文本到图像连续定制扩散.arXiv 预印本， https:/larxiv.orglabs/2304.06027 (2023).

[180]JamesSeale Smith,Leonid Karlinsky,Vyshnavi Gutta,Paola Cascante-Bonilla,Donghyun Kim,Assaf

Arbelle,RameswarPanda,Rogerio Feris,and Zsolt Kira.2023.Codaprompt: 无复习的连续学习中基于分解

注意力的持续提示。在《计算机视觉与模式识别》(IEEE/CVF Conference on Computer Vision and Pattern

[181]邵畅阳，韩旭，曾真怡，李快，陈晨，刘志远，孙茂松，杨涛。2023.Compet: 迭代参数高效的大型语言模型调优。预印本，arXiv:2309.14763(2023)。

[182]宋一凡，王佩怡，熊伟民，朱大卫，刘天宇，隋志芳，李肃建。2023.InfoCL: 从信息论视角缓解连续文本分类中的灾难性遗忘。在EMNLP 2023年发现论文集。14557-14570页。

[183]Nisan Stiennon、Long Ouyang、Jeftrey Wu、Daniel Ziegler、Ryan Lowe、Chelsea Voss、Alec

Radford、Dario Amodei和Paul F.Christiano.2020年.在人类反馈下学习总结.《神经信息处理系统》

[184]孙范康、何承浩和李宏义.2019.LAMOL: 终身语言学习的语言模型.在国际学习表示会议上发表。

[185]孙景远，王少男，张嘉俊，宗承庆。2020.连续语言学习中的知识蒸馏与回放。在计算语言学国际会议论文

集中。3569-3579。

[186]孙明杰，庄柳，安娜·贝尔，J.Zico Kolter.2023.大语言模型的简单而有效的剪枝方法.第十二届国际代表

学习会议论文.

[187]汤巧玉，邓子良，林宏宇，韩显培，李桥，孙乐。2023年。Toolalpaca: 针对语言模型的通用工具学习，通过3000个模拟案例。arXiv 预印本，httos://arxiv.org/abs/2306.05301 (2023)。

[188]JamesThorne,Andreas Vlachos,Christos Christodoulopoulos,and Arpit Mittal.2018.FEVER:a Large-scale Dataset for Fact Extraction and VERification.In Proceedings of Conference of the North American Chapter of the Association forComputational Linguistics:Human Language Technologies.809-819.

[189]张宗规，张笃，戴宏宁.2024.图形上的持续学习：综述.arXiv预印本，arXiv:2402.06330 (2024).

190]Hugo Touvron,Thibaut Lavril,Gautier Izacard,Xavier Martinet,Marie-Anne Lachaux,Timothee

Lacroix,Baptiste Roziere,Naman Goyal,Eric Hambro,Faisal Azhar,等.2023.Llama;开源和高效的基金会

[191]HarshTrivedi,Niranjan Balasubramanian,Tushar Khot,and Ashish Sabharwal.2023.Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions.In Proceedings of Annual Meeting of the Association forComputational Linguistics.10014-10037.

[192]Vaibhav Varshney,Mayur Patidar,Rajat Kumar,Lovekesh Vig,and Gautam Shroff.2022.基于监督对比学习的提示增强生成式重播(Prompt Augmented Generative Replay)在终身意图检测中的应用。《2022年北

[193]Prashanth Vijayaraghavan 和 Deb Roy.2021.终身知识丰富社会事件表示学习.第十一届欧洲计算语言学协会会议论文集.3624-3635.

[194]MichaelVolske,Martin Potthast,Shahbaz Syed,和 Benno Stein.2017.短小精悍：利用 Reddit 学习自

动摘要。在“摘要新领域”研讨会论文集。59-63页。

[195]王亚力、普鲁斯查坦库恩、纳吉亚、阿曼普雷特.辛格、朱利安.迈克尔、菲利克斯 · 希尔、奥梅尔 · 莱维和塞缪尔·鲍曼.2019.SuperGLUE: 通用语言理解系统的更粘性基准.《神经信息处理系统》第32卷(2019)。

[196]王亚力、辛格·阿曼普雷特、迈克尔·朱利安、希尔费利克斯、莱维奥梅尔和萨缪尔·R.鲍曼。2018年。 GLUE: 自然语言理解的多任务基准和分析平台。在国际机器学习大会。

[197]王慧怡，陆浩东，姚琳娜，龚东.2024.混合适应器自扩展的预训练模型在连续学习中的应用.ArXiv预印本，https:/larxiv.org/abs/2403.18886 (2024).

[198]王浩、施涵文和段建勇.2024年.少样本增量事件检测.《亚洲及低资源语言信息处理》(ACM Transactions on Asian andLow-Resource Language Information Processing)23,2(2024):1-20.

[199]王洪，熊文瀚，余墨，郭晓潇，张世宇，王扬威.2019.句子嵌入对齐：终身关系抽取方法.北美计算语言学协会人类语言技术会议论文集.796-806.

[200]王磊，马晨，冯学阳，张泽宇，杨浩，张景森，陈志远，唐家凯，陈旭，林彦凯，等。基于自主智能体的大型语言模型研究综述。计算机科学前沿，18(2024),1-26。

[201]王丽渊，张兴星，苏航，朱俊.2024年，连续学习的全面综述：理论、方法与应用.图像模式分析和机器 IEEE智能Transactions(2024)。

[202]王明阳，阿德尔海克，卢卡斯·朗格，詹尼克·斯特罗特根和欣里希·舒特泽。2024年。无需复习的模块化和 组合式持续学习语言模型。arXiv 预印本，https:/larxiv.org/abs/2404.00790( 2024)。

[203]王佩浩，潘拉姆斯瓦拉，及王章洋。2023年。通过模型重用的数据高效神经尺度定国际会议。在《机器学习》上。36193-36204页。

[204]王沛怡，宋一帆，刘天宇，高润东，林秉淮，曹云博，隋志芳。2022.少即是多：通过一种简单而有效的方法重新思考最先进的连续关系抽取模型。预印本，arXiv:2209.00243(2022)。

[205]王培义，宋一凡，刘天宇，林炳怀，曹云波，李素健，隋志芳。通过对抗类增强学习连续关系提取的鲁棒表示。自然语言处理经验方法会议论文集。6264-6278。

[206]王睿、余彤、赵涵洞、金承哲、 Subrata Mitra、张瑞怡和里卡多.埃纳奥。2022年。面向命名实体识别的少量示例类增量学习。在计算语言学协会年度会议论文集。571-582页。

[207]王松，朱瑶辰，刘浩晨，郑再义，陈晨等.2023.大语言模型的知识编辑：综述.arXiv预印本，

arXiv:2310.16218 (2023).

[208]王维康，张家军，李倩，黄美玉，李志飞，2013。面向任务的对话系统的从零开始增量学习。计算语言学协会第57届年会论文集。3710-3720。

[209]王晓，陈天泽，葛启明，夏寒，包荣，郑容，张琦，桂涛，黄宣静。语言模型持续学习的正交子空间学习。

EMNLP2023的研究结果。10658 -10671。

[210]王心怡，王梓涛，胡伟.2023.连续少量样本关系抽取中的序列对比知识蒸馏.于ACL 2023年研讨会论文集.12693-12706页.

[211]王一凡，刘亚飞，施楚凡，李浩凌，陈晨，卢浩楠，杨玉九.2024.InsCL: 一种基于指令的大型语言模型微调数据效率高的持续学习范式 .ArXiv 预印本，arXiv:2403.11435 (2024).

[212]王亦中，Swaroop Mishra,Pegah Alipoormolabashi,Yeganeh Kordi,Amirreza Mirzaei,AtharvaNaik,Arjun Ashok,Arut Selvan Dhanasekaran.Anjana Arunkumar,David Stap 等。2022年。超自然指令：通过声明性指令在1600+ NLP任务上的泛化。《自然语言处理会议》(Conference on Empirical Methods in

[213]王志成，刘玉芳，季涛，王小玲，吴元斌，姜丛丛，叶超，韩镇聪，王凌，邵旭，等。2023.通过有效参数

隔离实现无复习的持续语言学习。在计算语言学协会年会论文集。10933-10946页。

[214]王子锋，张子兆，李承宇，张涵，孙若熙，任晓琪，苏国龙，维克多·佩罗特，熊妮弗·戴，托马斯·普菲斯

特。2022.为连续学习而学习： prompting 的研究。在《计算机视觉与模式识别》(IEEE/CVF Conference on

[215]魏楷文，张泽群，李金，池国，李书超，王卫宏，吕建伟.2022.HEFT: 增量事件检测中的历史增强特征

迁移框架.知识基于系统，254(2022):109601.

[216]Wenzek,G.,Lachaux,M.-A.,Conneau,A.,Chaudhary,V.,Guzmán,F.,Joulin,A.,&Grave,E.(2020).

CCNet:从网络爬虫数据中提取高质量的单语数据集.第十二届语言资源和评估会议论文集.4003-4012.

[217]GentaWinata,Lingjue Xie,Karthik Radhakrishnan,Shijie Wu,Xisen Jin,Pengxiang Cheng,Mayank

Kulkarni,andDaniel Preotiuc-Pietro.2023. 在大规模多语言连续学习中克服灾难性遗忘。在ACL 2023年论文

[218]Martin Wistuba,Lukas Balles,Giovanni Zappella,等人.2023.低秩适应下的持续学习.在2023年

NeurIPS 分布变化研讨会：基础模型的新前沿.

[219]Wu,C.,Gan,Y.,Ge,Y.,Lu,Z.,Wang,J.,Feng,Y.,Luo,P.,&Shan,Y.(2024).LlamaPro:A

ProgressiveLlama with Block Expansion.arXiv preprint arXiv:2401.02415.

[220]吴俊宏，刘雨辰，宗承庆.2024年.F-MALLOC: 神经机器翻译中的前向内存分配连续学习方法.arXiv预印

本，arXiv:2404.04846(2024)。

[221]吴彤彤，李学凯，李元芳，哈法里·格哈尔默扎德，齐桂林，朱雨金，徐国强。2021.基于课程元学习的顺

序鲁棒持续关系抽取。在《人工智能国际联合会议》(AAAI)论文集，卷35。10363-10369页。

[222]吴彤彤，罗琳浩，李元芳，潘诗睿，Vu Thuy-Trang,Haffari Gholamreza.2024. 大语言模型的持续学习：综述.arXiv 预印本， arXiv:2402.01364(2024)。

[223]薛从英、尹文鹏、冯一浩和余逸豪.2021.增量式少量文本分类：多轮新类别的建模、数据集与系统.北美计

算语言学协会人类语言技术会议论文集.1351-1360.

[224]薛涵，王佩怡，刘天宇，林必怀，曹云博，隋志芳.2023.通过分类器分解提升持续关系抽取.于ACL 2023

发现论文集.10053-10062页.

[225]MengzhouXia,Sadhika Malladi,Suchin Gururangan,Sanjeev Arora,and Danqi Chen.2024.Less: 选择有针对性的指令调优重要数据。 arXiv 预印本，https://arxiy.org/abs/2402.04333 (2024)

[226]YuXia,Quan Wang,Yajuan Lyu,Yong Zhu,Wenhao Wu,Sujian Li,and Dai Dai.2022.学习与回顾：通过回顾合成样本提升持续命名实体识别性能.于ACL 2022年会议论文集.2291-2300页.

[227]蒋谢，梁一丹，刘景平，肖杨华，吴保华，倪生华.2023.Quert: 旅游领域搜索中的查询理解语言模型的

持续预训练.在第29届ACM SIGKDD国际知识发现和数据挖掘会议论文集中.5282-5291页.

[228]Yong Xie,Karan Aggarwal, 和 Aitzaz Ahmad.2023.高效连续预训练方法用于构建领域特定大型语言 arXiv

模型 . 未发表稿， arXiv:2311.08545(2023) .

[229]孙青，丁汉天，李小鹏，张德姣，谭明，马晓飞， Ramesh Nallapati,Murali Krishna Ramanathan,等。

探索代码生成模型的持续学习。计算语言学协会年会论文集。782-792。

[230]BangYang,Yong Dai,Xuxin Cheng,Yaowei Li,Asif Raza,and Yuexian Zou.2024.通过持续语言学习

接纳CLIP中的语言包容性和多样性.arXiv 预印本，arXiv:2401.17186 (2024).

[231]彭翔阳，刘晓阳，王丹妮。2023年。FinGPT: 开源金融大语言模型。在IJCAI(2023) 上发表的FinLLM论

[232]李阳，罗志鹏，张诗铭，唐飞腾，李天睿.(2024).智能城市中的持续学习：综述.arXiv预印本，

[233]杨锐，宋林，李彦伟，赵思杰，葛一晓，李修，单颖。Gpt4tools:通过自我指导，教授大型语言模型使用工 具。神经信息处理系统进展36(2024)。

[234]史玉 (Shu Yang)、穆罕默德·阿西夫.阿里(Muhammad Asif Ali)、王成龙 (Cheng-Long Wang)、胡

立杰(Lijie Hu) 和王子 (Di Wang) 。2024年。MoRAL: 增强版混合 Experts(MoE) 在大型语言模型中的终

[235]CagatayYildiz,Nishaanth Kanna Ravichandran,Prishruit Punia,Matthias Bethge,和 Beyza Ermis. 2024. 探索大型语言模型的持续预训练：洞察与影响.arXiv 论文预印本， arXiv:2402.17400 (2024).

[236]Yin,Wenpeng,Jia Li,and Caiming Xiong.“ConTinTin: 从任务指令进行连续学习.”In 第60届计算语言学年会，ACL 2022,3062-3072.Association for Computational Linguistics (ACL),2022.

[237]Jachong Yoon,Sachoon Kim,Eunho Yang,and Sung Ju Hwang.2019.Scalable and Order-robust Continual Lcarning with Additive ParameterDecomposition.In International Conference on Learning Representations.

[238]Yu,Pengfei,HengJi,and Prem Natarajan."Lifelong Event Detection with Knowledge Transfer."In Proceedings of the Conference on Empirical Methods in Natural Language Processing,5278-5290.2021.

[239]邵波元和赵丹培.2023.连续语义分割综述：理论、挑战、方法与应用.arXiv预印本，

https://arxiv.org/abs/2310.14277(2023).

[240]QiaoYuan,Sheng-Uei Guan,Pin Ni,Tianlun Luo,Ka Lok Man,Prudence Wong,and Victor Chang. 2023. 连续图学习：综述.arXiv 预印本，https://arxiy.org/abs/2301,12230 (2023).

[241]道光赞，北辰，德健杨，泽奇林，金敏素，北关，王永基，陈伟柱，以及楼剑光。2022.CERT: 以图书馆为导向的代码生成的连续预训练。在国际联合人工智能会议论文集。2369-2375页。

[242]张做寒，刘晓，杜正骁，王紫涵，翰涵羽，丁明，杨卓义，徐一帆，郑文迪，夏晓，等。2022.GLM-

130B:一个开源的双语预训练模型。在国际学习代表会议(International Conference on Learning

[243]裘斯·战、理查德·方、罗翰·宾杜、阿库尔·古普塔、田村俊树和丹尼尔·康。2023年。通过微调移除GPT-4中的RLHF保护。arXiv预印本， https:/larxiv.orglabs/2311.05553 (2023)。

[244]张晨龙，曹鹏飞，陈玉波，刘康，张志强，孙萌舒，赵俊.2024.基于层次增强网络的连续少量样本事件检测.arXiv预印本，arXiv:2403.17733 (2024).

[245]张杜珍，董嘉华，余雅涵，陈秀逸，张永刚，方振。2023.无灾难性遗忘的连续命名实体识别。在自然语言处理经验方法会议论文集。8186-8197页。

[246]张杜珍，李洪柳，康伟，徐荣涛，董嘉华，陈秀义.2023.进化命名实体识别中的任务关系蒸馏与原型伪标签.第32届ACM 国际信息与知识管理会议论文集.3319-3329.

[247]张杜珍，余雅涵，陈飞龙，陈秀逸。2023年。增量命名实体识别中的对数似然分解。在国际ACM SIGIR信息检索研究与开发会议论文集中。1919-1923页。

[248]张涵，桂林，雷宇，翟元钊，张业红，何玉兰，王辉，余悦，王锦辉，梁斌，等。基于最优策略正则化的持续人类偏好学习。arXiv预印本：2402.14228(2024)。

[249]张涵、叶雷、桂林、杨民、何玉兰、王辉和徐睿峰.CPPO: 面向人类反馈的强化学习持续学习.(未发布

日期) .

[250]张涵，梁斌，杨敏，王辉，徐瑞峰。基于提示的持续关系抽取原型框架。音频，语音和语言处理学报 30(2022),2801-2813。

[251]张晗，张生，向洋，梁斌，苏劲松，苗忠建，王辉，徐瑞峰。 CLLE: 多语言机器翻译中持续语言学习评价的基准。见EMNLP 2022的调查结果。428 -443。

[252]张 Michael 和 Choi Eunsol.2023. 通过丢弃过时事实缓解时间错配.第十三届自然语言处理经验方法研讨

会论文集.14213-14226页.

[253]张松明，梁云龙，王树波，陈玉峰，韩文娟，刘剑，徐金安.2023.理解与提升神经机器翻译中的知识蒸馏. 第一届计算语言学年会论文集.8062-8079.[254]张湘，赵俊波，伊恩·勒库恩.2015.文本分类的字符级卷积网

络.第28届神经信息处理系统大会(2015).

[255]张云楠和陈庆才.2023.基于神经跨度的持续命名实体识别模型.在第37届人工智能协会会议(AAAI Conference on Artificial Intelligence)论文集中。13993-14001页。

[256]张元池，李鹏，孙茂松，刘洋。神经机器翻译的连续知识蒸馏。计算语言学协会年会论文集。7978-7996。

[257]张炎哲，王学智，杨迪逸.2022.基于自适应组合模块的连续序列生成.第一届计算语言学年会论文集. 3653-3667.

[258]张宇豪，钟维克，陈丹奇，加博尔·安格利和克里斯托弗·曼宁.2017.位置感知注意力与监督数据提升槽位填充性能.第十一届国际语义网与语义计算会议.35-45.

[259]张紫涵，孟芳，凌晨， Mohammad Reza Namazi Rad,王俊.2023.大语言模型如何捕捉不断变化的世界知识?最新进展综述.第十九届自然语言处理研讨会论文集.

[260]Bowen Zhao,Zander Brumbaugh,Yizhong Wang,Hannanch Hajishirzi,and Noah A Smith.2024.Set the Clock:Temporal Alignment ofPretrained

Language Models.arXiv preprint arXiv:2402.16797 (2024).

[261]赵嘉晨，邓准，大卫·马德拉斯，周杰，任梦野.2023.大语言模型中的安全样本学习与遗忘.arXiv 预印本，https://arxiy.org/abs/2312,12736 (2023).

[262]赵佳蔚，张一飞，陈北狄，弗洛里安·施费弗尔和阿尼玛·阿南德库马尔.2023.InRank: 增量低秩学习.

ArXiv预印本，https:/larxiv.org/abs/2306.11250(2023).

[263]康兆(Kang Zhao)、许华 (Hua Xu)、杨江红 (Jiangong Yang) 和高楷(Kai Gao) 。2022. 连续关系

抽取中的一致表示学习。在ACL2022 年会议论文集。3402-3411页。

[264]赵文正，崔雨宁，胡巍.2023.通过区分类比语义改进连续关系抽取.第一届计算语言学年会论文集.1162- 1175页.

赵颖秀，郑尹河，田志良，高畅，孙健，张乃令。2022年。Prompt 条件变分自编码器：增强生成式重播在面向任务对话中的终身学习。在自然语言处理经验方法会议论文集上。11153-11169页。

已提交至ACM的手稿

[213]王志成，刘玉芳，季涛，王小玲，吴元斌，姜丛丛，叶超，韩镇聪，王凌，邵旭，等。2023.通过有效参数隔离实现无复习的持续语言学习。在计算语言学协会年会论文集。10933-10946页。

[214]王子锋，张子兆，李承宇，张涵，孙若熙，任晓琪，苏国龙，维克多·佩罗特，詹妮弗-戴，托马斯-普菲斯

特。2022.为连续学习而学习：prompting 的研究。在《计算机视觉与模式识别》(IEEE/CVF Conference on

[215]魏楷文，张泽群，李金，池国，李书超，王卫宏，吕建伟.2022.HEFT: 增量事件检测中的历史增强特征

迁移框架.知识基于系统，254(2022):109601.

[216]Wenzek,G.,Lachaux,M.-A.,Conneau,A.,Chaudhary,V.,Guzmán,F.,Joulin,A.,&Grave,E.(2020).

CCNet:从网络爬虫数据中提取高质量的单语数据集.第十二届语言资源和评估会议论文集.4003-4012.

[217]GentaWinata,Lingjue Xie,Karthik Radhakrishnan,Shijie Wu,Xisen Jin,Pengxiang Cheng,Mayank

Kulkarni,andDaniel Preotiuc-Pietro.2023.在大规模多语言连续学习中克服灾难性遗忘。在ACL 2023年论文

[218]Martin Wistuba,Lukas Balles,Giovanni Zappella,等人.2023.低秩适应下的持续学习.在2023年

NeurlPS分布变化研讨会：基础模型的新前沿.

[219]Wu,C.,Gan,Y.,Ge,Y.,Lu,Z.,Wang,J.,Feng,Y.,Luo,P.,&Shan,Y.(2024).Llama Pro:A

ProgressiveLlama with Block Expansion.arXiv preprint arXiv:2401.02415.

[220]吴俊宏，刘雨辰，宗承庆.2024年.F-MALLOC: 神经机器翻译中的前向内存分配连续学习方法.arXiv预印

本 ，arXiv:2404.04846(2024)。

[221]吴彤彤，李学凯，李元芳，哈法里·格哈尔默扎德，齐桂林，朱雨金，徐国强。2021.基于课程元学习的顺序鲁棒持续关系抽取。在《人工智能国际联合会议》(AAAI)论文集，卷35。10363-10369页。

[222]吴彤彤，罗琳浩，李元芳，潘诗睿， Vu Thuy-Trang,Haffari Gholamreza.2024. 大语言模型的持续学

习：综述.arXiv 预印本， arXiv:2402.01364(2024)。

[223]薛从英、尹文鹏、冯一浩和余逸豪.2021.增量式少量文本分类：多轮新类别的建模、数据集与系统.北美计

算语言学协会人类语言技术会议论文集.1351-1360.

[224]薛涵，王佩怡，刘天宇，林必怀，曹云博，隋志芳.2023.通过分类器分解提升持续关系抽取.于ACL 2023

发现论文集.10053-10062页.

[225]MengzhouXia,Sadhika Malladi,Suchin Gururangan,Sanjeev Arora,and Danqi Chen.2024.Less:

选择有针对性的指令调优重要数据。arXiv 预印本，https:/larxiv.orglabs/2402.04333 (2024).

[226]Yu Xia,Quan Wang,Yajuan Lyu,Yong Zhu,Wenhao Wu,Sujian Li,and Dai Dai.2022.学习与回顾：通过回顾合成样本提升持续命名实体识别性能.于ACL2022 年会议论文集.2291-2300页.

[227]蒋谢，梁一丹，刘景平，肖杨华，吴保华，倪生华.2023.Quert: 旅游领域搜索中的查询理解语言模型的持续预训练.在第29届ACM SIGKDD国际知识发现和数据挖掘会议论文集中.5282-5291页.

[228]Yong Xie,Karan Aggarwal,和 Aitzaz Ahmad.2023.高效连续预训练方法用于构建领域特定大型语言

模型 .未发表稿， arXiv:2311.08545(2023).

[229]孙青，丁汉天，李小鹏，张德姣，谭明，马晓飞， Ramesh Nallapati,Murali Krishna Ramanathan,等。

探索代码生成模型的持续学习。计算语言学协会年会论文集。782-792。

[230]BangYang,Yong Dai,Xuxin Cheng,Yaowei Li,Asif Raza,and Yuexian Zou.2024. 通过持续语言学习 接纳CLIP 中的语言包容性和多样性.arXiv预印本，arXiv:2401.17186(2024).

[231]彭翔阳，刘晓阳，王丹妮。2023年。FinGPT: 开源金融大语言模型。在JCAI(2023) 上发表的FinLLM 论

[232]李阳，罗志鹏，张诗铭，唐飞腾，李天睿.(2024).智能城市中的持续学习：综述.arXiv预印本，

[233]杨锐，宋林，李彦伟，赵思杰，葛一晓，李修，单颖。 Gpt4tools:通过自我指导，教授大型语言模型使用工

具。神经信息处理系统进展36(2024)。

[234]史玉(Shu Yang)、穆罕默德·阿西夫.阿里 (Muhammad Asif Ali)、王成龙(Cheng-Long Wang)、胡

立杰(Ljie Hu) 和王子 (Di Wang) 。2024年。MORAL: 增强版混合 Experts(MoE) 在大型语言模型中的终

[236]Yin,Wenpeng,Jia Li,and Caiming Xiong.“ConTinTin:从任务指令进行连续学习.”In 第60届计算语言学年会，ACL 2022,3062-3072.Association for Computational Linguistics (ACL),2022.

[238]Yu,Pengfei,HengJi,and Prem Proceedings of the Conference on

Natarajan."Lifelong Empirical Methods

EventDetection with Knowledge Transfer."In in Natural Language Processing,5278-5290.2021.

53AI，大模型落地应用首选服务商

定位：开箱即用的大模型落地应用平台

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

年轻人！来一起搞AI吗?

如果你看见AI对商业世界的变革，欢迎来和我们一起探索~

岗位：销售经理

查看详情

岗位：项目经理

查看详情

岗位：产品经理

查看详情

岗位：测试工程师

查看详情

160+中大型企业正在使用53AI

立即咨询申请演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

2024-04-24

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

实测：本地跑llama3:70B需要什么配置

2024-04-24

超简单在本地部署Llama3的方案

2024-04-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

RAG系列04：使用ReRank进行重排序

2024-03-22

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

2024-03-29

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

2024-04-25

“大数据+”医疗

2024-04-11

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

大家都在问

如何选择合适的 Embedding 模型？

2024-06-26

OpenAI宣布终止对中国提供API服务！对我们有何影响？

2024-06-26

怎么判断一个AI Agent是不是一个好应用？

2024-06-25

AI统治人类，需要分几步走？

2024-06-24

为什么有人认为AI存在意识？

2024-06-24

AI技术前瞻：下一个AI风口在何处？

2024-06-24

泼天富贵，OpenAI收购数据仓库公司，为什么？

2024-06-24

如何让agent拥有对话记忆?

2024-06-24

企业大模型落地应用平台

全员+AI

业务+AI

AIx业务

大模型咨询

大模型定制

1 引 言

2 终身学习简介

2.1 问题陈述

2.2 评价指标

2.3 常用手法

2.3.1 基于重放的方法

2.3.2 正则化方法

2.3.3 基于架构的方法

2.3.4 基于蒸馏的方法

2.4 评测标准和数据集

3 方法：持续预训练

3.1 连续垂直领域预训练

3.1.1 参数高效微调

3.1.2 模型扩展

3.1.3 重新加热(Re-warming)

3.1.4 数据选择

3.2 持续语言领域预训练

3.2.1 基于架构的方法

3.2.2 重新加热(Re-warminq)

3.3 持续时间域预训练

3.3.1 模型扩展

3.3.2 重新加热(Re-warming)

4 方法：持续微调

4.1 连续文本分类

4.1.1 数据选择

4.1.2 基于蒸馏的方法

4.1.3 基于重放的方法

4.1.4 基于蒸馏的方法

4.1.5 基于正则化的方法

4.1.6 基于架构的方法

4.1.7 其他

4.2 命名实体识别的持续演化

4.2.1 基于蒸馏的方法

4.2.3 原型法

4.2.4 基于架构的方法

4.3 持续关系抽取

4.3.1 知识蒸馏

4.3.2 关系原型

4.3.3 对比学习

4.3.4 元学习

4.3.5 数据增强

4.4 持续机器翻译

4.4.1 基于蒸馏的方法

4.4.2 基于正则化的方法

4.4.3 基于体系结构的方法。

4.5 持续调优指令

4.5.1 基于重放的方法。

4.5.2 基于正则化的

4.5.3 基于梯度的方法

4.5.4 基于架构的方法

4.6 知识编辑持续进行

4.7 持续对齐

4.7.1 基于正则化的

4.7.2 全梯度的方法

4.8 知识编辑持续进行

4.9 持续对齐

4.10 小结

5 方法论：外部知识

5.1 基于检索的终身学习

5.2 基于工具的终身学习

5.3 总结

6 讨论与结论

6.1 现有挑战

6.2 当前趋势

6.3 后续步骤

6.4 结论

7 鸣谢

8 参考文献

年轻人！来一起搞AI吗?

岗位：销售经理

岗位：项目经理

岗位：产品经理

岗位：测试工程师

相关资讯

1 引言

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示