AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


基于多教师蒸馏的持续学习技术

发布日期:2025-02-24 13:08:10 浏览次数: 1586 来源:亚信科技新技术探索
推荐语

在人工智能快速发展的今天,如何让AI模型像人类一样持续学习和进步,是一个极具挑战性的问题。本文深入剖析了基于多教师蒸馏的持续学习技术,为解决AI模型的灾难性遗忘问题提供了新思路。

核心内容:
1. 持续学习技术的核心理念及面临的挑战
2. 基于多教师蒸馏的持续学习技术原理与优势
3. 该技术在实际应用中的效果分析与展望

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家



编者荐语

在人工智能技术快速迭代背景模型开发面临着如何新任务保持高效学习同时遗忘旧知识这一重大挑战。本文深入介绍了持续学习技术的核心理念,并聚焦于多教师蒸馏方法,探讨如何通过多个模型协作提升学习效率和新旧知识传递效果。期望本文能为关注持续学习技术创新的研究者与使用者提供全新的视角有价值的参考。文已国际学术会议-信号处理顶ICASSP 发表


基于多教师蒸馏的持续学习技术

亚信科技(中国)有限公司

摘要:持续学习(Continual learning),也称为终身学习(Lifelong Learning是基于复杂环境与行为进行不断发展,并在已经学习的技能之上建立更复杂技能的过程简而言之,就是要赋予AI模型不断学习和进化的能力,更好地适应现实世界变化的需要。针对现有技术面临的灾难性遗忘问题,亚信科技通信人工智能实验室提出了一种基于多教师蒸馏的持续学习技术,不仅有效缓解深度神经网络旧知识的遗忘,同时还提高了模型对新知识的学习效率。


引言


作为人类,我们能轻易学会多种任务,并将多种知识交叉应用于多个现实环境。在机器世界中,同样面临自然场景下的类似情形:机器人需不断地习得新技能,适应新情况,完成新任务;自动驾驶程序需要去适应乡村公路、高速公路、城市马路等不同路况。诸如此类的智能化需求,则要求模型具备不断学习和不断进化的能力,使其能够适应真实世界中多变的环境。在深度神经网络上进行持续学习,是一种让模型自我增强的有效方式,同时该技术也面临灾难性遗忘、稳定性和可塑性的技术挑战。

• 灾难性遗忘:神经网络所学到的知识存储在模型参数中(如Attention参数),当神经网络在新数据集上学习新任务时,网络中的参数会被更新,而旧任务的知识则会被覆盖,导致更新后的模型在旧任务上的表现出“遗忘”。



• 稳定性和可塑性:稳定性是指保留旧知识的能力,可塑性指学习新知识的效率。两者此消彼长,相辅相成,目的在于让训练的模型更通用。


图1:人类不同阶段的持续学习


现有的持续学习技术主要从样本、参数、损失等方面进行探索,大致可分为三个方向,分别是基于样本重放的方法、基于参数正则的方法和基于参数孤立的方法。


• 基于样本重放的方法:缓存部分历史数据,和新数据一起训练。抗遗忘能力较好,缺点是需要额外的存储空间来缓存训练数据。



• 基于参数正则的方法:限制重要参数的更新或进行知识蒸馏。抗遗忘能力适中,优点是不需要额外的可学习参数和存储空间。



• 基于参数孤立的方法:为每批数据分配专属的参数,最终形成大参数量模型。抗遗忘能力最好,缺点是需要越来越多的可学习参数,训练和推理效率降低。



图2:持续学习方法示意图


基于落地的实际应用案例需求,综合考虑了抗遗忘能力、推理效率和存储空间需求三个方面,最终提出了一种基于多教师蒸馏的持续学习方法(Multi-Teacher Distillation for Incremental Object Detection, MTD)。实验表明,该方法能有效应对灾难性遗忘这一技术挑战,引入的专家模型,可较好地协调新旧知识在稳定性和可塑性维度上的平衡。



方法介绍


基于多教师蒸馏的持续学习方法MTD),是基于样本重放和参数正则技术的集合。包含主动数据筛选(Active data rehearsal)和多教师蒸馏(Multi-teacher distillation两个核心部分。

Step1:进行有效样本选择。通过主动学习技术,挑选最具代表性的基础数据作为重演数据,和新数据组合后形成最终的训练样本集。



Step2:进行多教师蒸馏计算,巩固旧知识,学习新能力。通过基础模型和专家模型指导学生模型的训练,基于解耦特征蒸馏方式,得到蒸馏损失。



Step3:通过学生模型的预测结果和真实标注计算,得到常规损失。



Step4:进行综合损失计算。将蒸馏损失和常规损失相加后,反向传播,更新学生模型的参数。


图3:多教师蒸馏技术训练示意图


(一)主动数据筛选



为了解决大规模、低质量数据带来的计算开销、存储开销问题,提出了一种主动数据筛选技术。该技术基于主动学习方法,利用最小特征图结构相似性原理,从基础数据中挑选出最具代表性的数据,能大幅度提升模型的训练性能,更能高效地抓住数据的主要特征,提升模型精度


• 历史数据:存量任务/场景数据集,通过提取少量样本,用于巩固模型对旧知识的记忆。



• 新增数据:新增任务/场景数据集,提取有效数据样本,用于提升模型对新知识的学习。



• 重演数据:来自历史数据、新增数据中的代表性数据,最终形成模型训练数据集。



其中  是被挑选的数据,  和  分别表示第  个数据和第  个数据的特征图,  表示结构相似性函数。  是基础数据集,  是重演数据集。


图4:主动数据筛流程图


(二)多教师蒸馏

多教师蒸馏部分,期望在保证模型推理效率的同时,极力地克服稳定性和可塑性的困境。通过采用模型网络一致性蒸馏架构,特征解耦蒸馏方法,最大化保证逐层特征学习。


Step1:通过历史数据,训练基础模型,用于学生模型的旧知识指导。



Step2:通过新增数据,训练专家模型,用于学生模型的新知识指导。



Step3:利用数据标签,对基础、学生和专家模型进行特征解耦,分为基础目标区域、新目标区域和背景区域。



Step4:结合各部分蒸馏损失,计算整体蒸馏损失。




其中,  、  和  分别为基础模型、学生模型和专家模型的特征,  为特征距离函数,一般是L2范数。  、  和  分别表示基础目标区域、新增目标区域和背景区域的0-1掩码。  、  和  分别表示各区域的像素数。  、  和  分别表示各区域的损失系数。


图5:多教师蒸馏计算结构图

实验结果


(一)主要实验结果

PASCAL VOC 2007数据集,包含20个常见的目标类别,如“人”、“巴士”、“猫”、“狗”等。为了验证持续学习的有效性,将20个类别划分为10+1015+519+13种设置进行实验。可以发现:3种实验设置下,该方法的在全类别、新类别上的均值平均精度都明显优于现有的持续学习方法。


• 在10+10的实验设置下,取得了全类别均值平均精度69.0%,新类别均值平均精度69.9%;


• 在15+5的实验设置下,取得了全类别均值平均精度71.2%,新类别均值平均精度59.6%;


• 在19+1的实验设置下,取得了全类别均值平均精度74.3%,新类别均值平均精度73.2%。


表1:PASCAL VOC 2007上的持续学习实验结果



为了进一步验证提出技术的鲁棒性,在包含80个类别的Microsoft COCO 2017数据集上继续尝试。通过40+40(先学习40个类别,再持续学习40个新类别)的实验设置,同样达到了最好的全类别均值平均精度32.2%,超越现有的其他算法。



表2Microsoft COCO 2017上的持续学习实验结果


(二)消融实验

最后,在PASCAL -VOC2007上验证了多教师蒸馏的必要性。在表3中,MTD:B表示仅使用基础模型进行蒸馏,MTD:E表示仅使用专家模型进行蒸馏,MTD:B+E表示使用多教师蒸馏。通过实验结果可以发现,使用多教师蒸馏的均值平均精度mAP71.2%,明显优于单独使用任何一个教师模型。


表3: PASCAL VOC 2007上不同教师蒸馏对比结果


总结与展望


本文提出了一种基于多教师蒸馏的持续学习框架,通过主动学习、特征解耦蒸馏等方法,有效提神经网络模型的持续学习能力。并且本方法可通用地适配于现有的卷积神经模型,广泛应用到任何边缘设备。


未来,我们将继续优化蒸馏算法,进一步开展大模型、多模态方向上的持续学习研究。同时,也将逐步在智慧园区、智能物流、智慧电厂等多个场景中进行落地尝试。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询