我要投稿

基于多教师蒸馏的持续学习技术

发布日期：2025-02-24 13:08:10 浏览次数： 1586 来源：亚信科技新技术探索

编者荐语

在人工智能技术快速迭代的背景下，模型开发面临着如何在新任务中保持高效学习同时不遗忘旧知识这一重大挑战。本文深入介绍了持续学习技术的核心理念，并聚焦于多教师蒸馏方法，探讨如何通过多个模型协作来提升学习效率和新旧知识传递效果。期望本文能为关注持续学习技术创新的研究者与使用者提供全新的视角和有价值的参考。本文已在国际学术会议-信号处理顶级会议ICASSP 上发表。

基于多教师蒸馏的持续学习技术

亚信科技（中国）有限公司

摘要：持续学习（Continual learning），也称为终身学习（Lifelong Learning），是基于复杂环境与行为进行不断发展，并在已经学习的技能之上建立更复杂技能的过程。简而言之，就是要赋予AI模型不断学习和进化的能力，更好地适应现实世界变化的需要。针对现有技术面临的灾难性遗忘问题，亚信科技通信人工智能实验室提出了一种基于多教师蒸馏的持续学习技术，不仅有效缓解深度神经网络旧知识的遗忘，同时还提高了模型对新知识的学习效率。

一

引言

作为人类，我们能轻易学会多种任务，并将多种知识交叉应用于多个现实环境。在机器世界中，同样面临自然场景下的类似情形：机器人需不断地习得新技能，适应新情况，完成新任务；自动驾驶程序需要去适应乡村公路、高速公路、城市马路等不同路况。诸如此类的智能化需求，则要求模型具备不断学习和不断进化的能力，使其能够适应真实世界中多变的环境。在深度神经网络上进行持续学习，是一种让模型自我增强的有效方式，同时该技术也面临灾难性遗忘、稳定性和可塑性的技术挑战。

• 灾难性遗忘：神经网络所学到的知识存储在模型参数中（如Attention参数），当神经网络在新数据集上学习新任务时，网络中的参数会被更新，而旧任务的知识则会被覆盖，导致更新后的模型在旧任务上的表现出“遗忘”。

• 稳定性和可塑性：稳定性是指保留旧知识的能力，可塑性指学习新知识的效率。两者此消彼长，相辅相成，目的在于让训练的模型更通用。

图1：人类不同阶段的持续学习

现有的持续学习技术主要从样本、参数、损失等方面进行探索，大致可分为三个方向，分别是基于样本重放的方法、基于参数正则的方法和基于参数孤立的方法。

• 基于样本重放的方法：缓存部分历史数据，和新数据一起训练。抗遗忘能力较好，缺点是需要额外的存储空间来缓存训练数据。

• 基于参数正则的方法：限制重要参数的更新或进行知识蒸馏。抗遗忘能力适中，优点是不需要额外的可学习参数和存储空间。

• 基于参数孤立的方法：为每批数据分配专属的参数，最终形成大参数量模型。抗遗忘能力最好，缺点是需要越来越多的可学习参数，训练和推理效率降低。

图2：持续学习方法示意图

基于落地的实际应用案例需求，综合考虑了抗遗忘能力、推理效率和存储空间需求三个方面，最终提出了一种基于多教师蒸馏的持续学习方法（Multi-Teacher Distillation for Incremental Object Detection, MTD)。实验表明，该方法能有效应对灾难性遗忘这一技术挑战，引入的专家模型，可较好地协调新旧知识在稳定性和可塑性维度上的平衡。

二

方法介绍

基于多教师蒸馏的持续学习方法（MTD），是基于样本重放和参数正则技术的集合。包含主动数据筛选（Active data rehearsal）和多教师蒸馏（Multi-teacher distillation）两个核心部分。

Step1：进行有效样本选择。通过主动学习技术，挑选最具代表性的基础数据作为重演数据，和新数据组合后形成最终的训练样本集。

Step2：进行多教师蒸馏计算，巩固旧知识，学习新能力。通过基础模型和专家模型指导学生模型的训练，基于解耦特征蒸馏方式，得到蒸馏损失。

Step3：通过学生模型的预测结果和真实标注计算，得到常规损失。

Step4：进行综合损失计算。将蒸馏损失和常规损失相加后，反向传播，更新学生模型的参数。

图3：多教师蒸馏技术训练示意图

（一）主动数据筛选

为了解决大规模、低质量数据带来的计算开销、存储开销问题，提出了一种主动数据筛选技术。该技术基于主动学习方法，利用最小特征图结构相似性原理，从基础数据中挑选出最具代表性的数据，能大幅度提升模型的训练性能，更能高效地抓住数据的主要特征，提升模型精度。

• 历史数据：存量任务/场景数据集，通过提取少量样本，用于巩固模型对旧知识的记忆。

• 新增数据：新增任务/场景数据集，提取有效数据样本，用于提升模型对新知识的学习。

• 重演数据：来自历史数据、新增数据中的代表性数据，最终形成模型训练数据集。

其中是被挑选的数据，和分别表示第个数据和第个数据的特征图，表示结构相似性函数。是基础数据集，是重演数据集。

图4：主动数据筛流程图

（二）多教师蒸馏

多教师蒸馏部分，期望在保证模型推理效率的同时，极力地克服稳定性和可塑性的困境。通过采用模型网络一致性蒸馏架构，特征解耦蒸馏方法，最大化保证逐层特征学习。

Step1：通过历史数据，训练基础模型，用于学生模型的旧知识指导。

Step2：通过新增数据，训练专家模型，用于学生模型的新知识指导。

Step3：利用数据标签，对基础、学生和专家模型进行特征解耦，分为基础目标区域、新目标区域和背景区域。

Step4：结合各部分蒸馏损失，计算整体蒸馏损失。

其中，、和分别为基础模型、学生模型和专家模型的特征，为特征距离函数，一般是L2范数。、和分别表示基础目标区域、新增目标区域和背景区域的0-1掩码。、和分别表示各区域的像素数。、和分别表示各区域的损失系数。

图5：多教师蒸馏计算结构图

三

实验结果

（一）主要实验结果

PASCAL VOC 2007数据集，包含20个常见的目标类别，如“人”、“巴士”、“猫”、“狗”等。为了验证持续学习的有效性，将20个类别划分为10+10、15+5和19+1的3种设置进行实验。可以发现：在3种实验设置下，该方法的在全类别、新类别上的均值平均精度都明显优于现有的持续学习方法。

• 在10+10的实验设置下，取得了全类别均值平均精度69.0%，新类别均值平均精度69.9%；

• 在15+5的实验设置下，取得了全类别均值平均精度71.2%，新类别均值平均精度59.6%；

• 在19+1的实验设置下，取得了全类别均值平均精度74.3%，新类别均值平均精度73.2%。

表1：PASCAL VOC 2007上的持续学习实验结果

为了进一步验证提出技术的鲁棒性，在包含80个类别的Microsoft COCO 2017数据集上继续尝试。通过40+40(先学习40个类别，再持续学习40个新类别)的实验设置，同样达到了最好的全类别均值平均精度32.2%，超越现有的其他算法。

表2：Microsoft COCO 2017上的持续学习实验结果

（二）消融实验

最后，在PASCAL -VOC2007上验证了多教师蒸馏的必要性。在表3中，MTD:B表示仅使用基础模型进行蒸馏，MTD:E表示仅使用专家模型进行蒸馏，MTD:B+E表示使用多教师蒸馏。通过实验结果可以发现，使用多教师蒸馏的均值平均精度mAP为71.2%，明显优于单独使用任何一个教师模型。

表3: PASCAL VOC 2007上不同教师蒸馏对比结果

四

总结与展望

本文提出了一种基于多教师蒸馏的持续学习框架，通过主动学习、特征解耦蒸馏等方法，有效提神经网络模型的持续学习能力。并且本方法可通用地适配于现有的卷积神经模型，广泛应用到任何边缘设备。

未来，我们将继续优化蒸馏算法，进一步开展大模型、多模态方向上的持续学习研究。同时，也将逐步在智慧园区、智能物流、智慧电厂等多个场景中进行落地尝试。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-02-25

LoRA 介绍

2025-02-25

LLM 联网搜索，到底是咋回事？

2025-02-25

在火山引擎部署DeepSeek，更快、更省、更安全

2025-02-25

MCP 三大核心概念（2）：用MCP实现数据调用、API执行与模板生成的完整链条

2025-02-25

零基础入门：DeepSeek微调教程来了！

2025-02-25

本地部署DeepSeek安全风险自查及安全加固方案

2025-02-24

Ragflow v0.16部署实践

2025-02-24

核弹级产品 MetaGPT X 发布：一键生成全栈应用程序！

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

FP8 低精度训练：Transformer Engine 简析

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

LLM 联网搜索，到底是咋回事？

2025-02-25

如何在通义灵码里用上 DeepSeek-V3 和 DeepSeek-R1 满血版 671B 模型？

2025-02-16

2025·人人都该懂一点的AI基础技术-ChatGPT、DeepSeekR1是如何被训练出来的？

2025-02-10

运行 70B的LLM，需要多大GPU显存 ?

2025-02-10

一场技术突围战：DeepSeek如何让我扔掉百度飞桨和阿里OCR？

2025-02-09

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

AI大模型那么强，它是吃什么长大的？

2025-01-24

怎么学习设计和训练一个大模型——也就是神经网络？

2025-01-22

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB