我要投稿

大模型想 “专精” 特定任务？这 3 种 Addition-Based 微调法别错过

发布日期：2025-04-23 07:26:32 浏览次数： 1540 作者：ITSouler

现有的大模型能做很多复杂的事情，比如写文章、回答问题、生成图像等等。不过大模型虽然很强大，但有时候在一些特定的任务上，还需要进一步调整，让它表现得更好。今天就来聊聊大模型微调里的一种方法——增加额外参数（Addition-Based）微调。

一、大模型与微调那些事儿

（一）大模型：厉害但需要 “定制” 的全能选手

大模型简单来说是具有海量参数、强大学习能力的人工智能模型。比如说大家比较熟悉的DeepSeek、GPT-4，就是大模型的典型代表。这些大模型就像是一个“全能学霸”，在很多方面都有不错的表现，但是呢，当我们需要它在某个特定的领域，比如医疗诊断、法律文书处理等方面做到更专业时，它就需要“特训”，“特训”的过程就是微调。

（二）微调：让大模型 “术业有专攻”

大模型在训练的时候，用了海量的数据，学会了很多通用的知识和技能。但是不同的应用场景有不同的需求，就像一个运动员，虽然身体素质很好，但要参加不同的比赛项目，还得针对项目进行专项训练。微调就是给大模型进行 “专项训练”，让它在特定的任务上表现得更出色。比如说，让一个已经会生成通用文本的大模型，经过微调后，更擅长生成医学领域的专业文本。

二、传统微调方法的 “烦恼”

在说Addition-Based 微调之前，咱们先看看传统的微调方法都有哪些。常见的有全量微调、部分微调等。

（一）全量微调：“伤筋动骨” 代价高

全量微调就是对大模型的所有参数都进行调整。这种方法的好处是，调整得比较全面，理论上可以让模型在特定任务上有很好的表现。但是它的缺点也很明显，大模型的参数数量一般非常庞大，动不动就几十亿、几百亿甚至上千亿参数。

调整这么多参数，需要大量的计算资源和时间，成本很高。而且，大模型本身已经学会了很多通用的知识，全量微调可能会破坏它原有的一些能力，有点 “伤筋动骨” 的感觉。

（二）部分微调：“偷工减料” 有局限

部分微调就是只调整大模型中的一部分参数，比如只调整最后几层的参数。这样做的好处是节省了计算资源和时间，成本相对较低。但是它也有局限，只调整部分参数，可能无法让模型充分学习到特定任务的知识，效果可能不够好。就好像只给运动员训练部分技能，在比赛中可能就难以发挥出最佳水平。

三、Addition-Based 微调：给模型 “加装备”

（一）啥是 Addition-Based 微调

Addition-Based微调，简单来说，就是在大模型原有的参数基础上，增加额外的参数，然后对这些额外的参数进行调整，而原来的大部分参数保持不变。这就好比给大模型 “加装备”，原来的模型就像是一个战士，已经有了很强的基础能力，现在给它增加一些新的装备，通过调整这些装备，让它在特定的战斗中表现得更好。

（二）具体是怎么 “加装备” 的呢

在实际操作中，Addition-Based微调衍生出多种具体实现方案，其中最具代表性的是Prefix Tuning、Prompt Tuning 和 Adapter Tuning。这三种方法就像给大模型设计了不同款式的 “装备”，虽然外观和功能各有侧重，但核心思路都是 “新增参数+定向优化”。

1. Prefix Tuning：给模型 “写好开头”

原理：想象你让一个作家写小说，直接让他自由发挥可能主题跑偏，但如果先给他一个故事开头（比如 “在一个暴雨倾盆的夜晚，侦探小明接到了一个神秘电话”），他就能顺着这个方向展开。Prefix Tuning 就是给模型输入加上一段可训练的连续前缀向量，告诉模型“接下来要处理什么任务”，同时保持原模型参数冻结。

实现方式：在模型的输入层或隐藏层前，插入一段长度为k的虚拟 token（比如 GPT 系列模型中每个 token 对应一个向量），这些token的向量不是固定的，而是通过训练学习得到的 “任务专属前缀”。

具体案例：假如你经营一家花店，想让大模型帮忙撰写介绍花卉养护知识的公众号文章。正常输入可能只是 “玫瑰的养护方法”，经过 Prefix Tuning，会在前面添加一段训练好的前缀向量，这个向量就像是在告诉模型：“接下来要创作一篇面向普通花卉爱好者的公众号文章，语言要生动活泼、通俗易懂，以玫瑰养护为主题，先介绍玫瑰习性，再详细讲浇水、施肥、修剪等养护要点”。模型基于这段前缀，就能生成一篇符合花店需求的文章，从玫瑰适合的生长环境，讲到不同季节的浇水频率，还会配上一些有趣的养护小窍门，吸引读者阅读。

优势在于只需要优化前缀参数（通常占原模型参数的0.1%-1%左右），训练成本极低。

2. Prompt Tuning：让 “提示词” 更聪明

原理：大家平时用DeepSeek时，会输入 “请帮我写一封求职信” 这样的提示词，Prompt Tuning就是让这些提示词变得更 “智能”。不过它优化的不是离散的文字，而是将提示词转化为连续的向量空间中的最优任务指令，本质上是给模型“定制化考试题目”。

实现方式：

传统提示词是人工设计的固定文本（如 “以下是一道数学题，答案用 {}标注”），而 Prompt Tuning 会把这些提示词转化为模型能理解的连续向量（称为 “软提示”），通过反向传播优化这些向量的数值。

具体案例：在教育领域，当模型需要解答数学题 “计算 25×(3+7)” 时，Prompt Tuning 会在输入前添加一组经过训练的向量，引导模型生成详细的解题步骤：“先计算括号内的加法 3+7=10，再将结果乘以 25，得到 25×10=250”，而不是直接给出答案。

相较于手动设计提示词，这种方法能自动找到最适合特定任务的 “隐形指令”，尤其适合复杂任务（如多步推理），但需要注意提示词的长度和位置，过长可能干扰模型原有逻辑。

3. Adapter Tuning：给模型装 “小插件”

原理：如果把大模型比作一台多功能电脑，Adapter Tuning 就是给它安装针对特定任务的 “外接显卡”—— 在模型的某些层之间插入小型神经网络（称为 Adapter），只训练这些 Adapter 的参数，原模型参数保持不变。

实现方式：

以 Transformer 架构为例，通常在每层的注意力机制或前馈网络后添加一个 “瓶颈结构”（比如先压缩维度再恢复），这个瓶颈结构就是 Adapter，包含少量可训练参数。

具体案例：假设你运营一个美食推荐平台，既要让大模型根据用户口味偏好推荐菜品，又要根据食材库存生成菜单。针对推荐菜品任务，给大模型添加一个 Adapter。这个 Adapter 会把用户输入的口味信息，比如 “喜欢酸甜口味、偏好海鲜”，转化为模型能理解的特征向量，让模型精准推荐诸如糖醋鱼、菠萝咕咾肉等菜品。而当切换到生成菜单任务时，另一个 Adapter 会读取食材库存数据，像 “现有土豆、牛肉、洋葱”，将其转化为模型可处理的信息，输出包含土豆烧牛肉、洋葱炒牛肉等菜品的菜单。这两个 Adapter 就如同电脑上针对不同任务的专业插件，互不干扰，还能随时切换使用。

这种方法的优势是 “即插即用”，同一大模型可以通过加载不同的 Adapter 处理多个任务，且内存占用极低（单个 Adapter 通常仅占原模型参数的 0.1%-1%）。Google 的 T5 模型就通过 Adapter 实现了多语言翻译任务的高效切换。

（三）和传统方法的区别

这三种 Addition-Based 方法与传统微调的区别，就像 “升级电脑” 的不同策略：全量微调是把整台电脑拆开重装（费时费钱），部分微调是只换显卡不换主板（效果有限），而 Addition-Based 方法是给电脑加装专用外设（如绘图显卡、游戏手柄）—— 不破坏原有配置，却能针对性提升特定性能。

比如同样处理中文医疗问答任务：

全量微调需要训练 1000 亿参数，耗时数天，还可能让模型忘记英文对话能力；

Adapter Tuning 只需训练 10 亿 Adapter 参数，1 天内完成，且原模型的英文、通用问答能力丝毫不受影响；

Prefix Tuning 更轻便，只需训练 3 亿前缀参数，适合快速上线小规模医疗咨询机器人。

四、Addition-Based 微调的优势：小成本大收获

（一）节省资源，性价比高

大模型的参数数量庞大，全量微调需要大量的计算资源，这对于很多企业和个人来说，是一笔不小的开支。而 Addition-Based 微调只需要增加少量的额外参数，调整这些参数所需的计算资源和时间就少多了。

（二）保留 “初心”，能力不丢

大模型在训练的时候，学会了很多通用的知识和技能，这些是它的 “基本功”。如果采用全量微调，可能会让它在调整特定任务的时候，把这些 “基本功” 给忘了。而 Addition-Based 微调因为大部分原有参数保持不变，所以大模型原有的通用能力得以保留。

（三）灵活适应，多种任务轻松搞

不同的任务有不同的需求，Addition-Based 微调可以通过增加不同的额外参数，来让大模型适应各种不同的任务，当需要切换任务的时候，只需要调整对应的额外参数就行了，不需要对整个模型进行大的改动，非常灵活。

五、Addition-Based微调的挑战

（一）额外参数的设计很关键

怎么设计这些额外参数，才能让它们更好地适应特定任务呢？这是一个需要研究的问题。如果额外参数的设计不合理，可能无法让模型很好地学习到任务的知识，效果就会大打折扣。比如说，添加的新层结构不合适，或者插入的参数位置不对，都可能影响模型的性能。

（二）模型的融合需要技巧

新增的额外参数和原有的大模型参数之间需要很好地融合，才能让模型整体表现良好。如果融合不好，可能会出现 “水土不服” 的情况，比如新增参数的信息无法很好地传递到原有模型中，或者原有模型的信息对新增参数产生干扰。这就需要在技术上进行优化，找到合适的融合方式。

（三）效果评估有难度

如何评估 Addition-Based 微调后的模型效果呢？因为它涉及到新增参数和原有参数的共同作用，评估指标可能需要综合考虑多个方面。而且，不同的任务有不同的评估标准，需要制定合适的评估方法，才能准确判断微调的效果。

六、总结

Addition-Based微调就是在大模型原有参数的基础上增加额外参数进行调整，它具有节省资源、保留模型原有能力、灵活适应多种任务等优势，适合数据量不大、需要快速部署和多任务切换等场景。虽然它也面临着额外参数设计、模型融合和效果评估等挑战，但未来前景十分广阔。

通过了解这种微调方法，我们可以更好地认识到大模型是如何在不同的场景中发挥作用的，也能看到人工智能技术在不断地优化和进步。希望大家对大模型的微调有了更清晰的认识，也期待未来人工智能能给我们带来更多的惊喜。

参考文献

[1] https://arxiv.org/abs/2101.00190

[2] https://arxiv.org/abs/2104.08691

[3] https://arxiv.org/abs/1902.00751

[4] https://aclanthology.org/2021.acl-long.353.pdf

[5] https://arxiv.org/pdf/2104.08691

[6] https://zhuanlan.zhihu.com/p/621700272