支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


大模型想 “专精” 特定任务?这 3 种 Addition-Based 微调法别错过

发布日期:2025-04-23 07:26:32 浏览次数: 1540 作者:ITSouler
推荐语

掌握大模型微调的前沿技术,提升特定任务表现。

核心内容:
1. 大模型微调的必要性和基本原理
2. 传统微调方法的局限性分析
3. Addition-Based微调法的优势与实践

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

现有的大模型能做很多复杂的事情,比如写文章、回答问题、生成图像等等。不过大模型虽然很强大,但有时候在一些特定的任务上,还需要进一步调整,让它表现得更好。今天就来聊聊大模型微调里的一种方法——增加额外参数(Addition-Based)微调。

一、大模型与微调那些事儿

(一)大模型:厉害但需要 “定制” 的全能选手

大模型简单来说是具有海量参数、强大学习能力的人工智能模型。比如说大家比较熟悉的DeepSeek、GPT-4,就是大模型的典型代表。这些大模型就像是一个“全能学霸”,在很多方面都有不错的表现,但是呢,当我们需要它在某个特定的领域,比如医疗诊断、法律文书处理等方面做到更专业时,它就需要“特训”,“特训”的过程就是微调。

(二)微调:让大模型 “术业有专攻”

大模型在训练的时候,用了海量的数据,学会了很多通用的知识和技能。但是不同的应用场景有不同的需求,就像一个运动员,虽然身体素质很好,但要参加不同的比赛项目,还得针对项目进行专项训练。微调就是给大模型进行 “专项训练”,让它在特定的任务上表现得更出色。比如说,让一个已经会生成通用文本的大模型,经过微调后,更擅长生成医学领域的专业文本。

二、传统微调方法的 “烦恼”

在说Addition-Based 微调之前,咱们先看看传统的微调方法都有哪些。常见的有全量微调、部分微调等。

(一)全量微调:“伤筋动骨” 代价高

全量微调就是对大模型的所有参数都进行调整。这种方法的好处是,调整得比较全面,理论上可以让模型在特定任务上有很好的表现。但是它的缺点也很明显,大模型的参数数量一般非常庞大,动不动就几十亿、几百亿甚至上千亿参数。

调整这么多参数,需要大量的计算资源和时间,成本很高。而且,大模型本身已经学会了很多通用的知识,全量微调可能会破坏它原有的一些能力,有点 “伤筋动骨” 的感觉。

(二)部分微调:“偷工减料” 有局限

部分微调就是只调整大模型中的一部分参数,比如只调整最后几层的参数。这样做的好处是节省了计算资源和时间,成本相对较低。但是它也有局限,只调整部分参数,可能无法让模型充分学习到特定任务的知识,效果可能不够好。就好像只给运动员训练部分技能,在比赛中可能就难以发挥出最佳水平。

三、Addition-Based 微调:给模型 “加装备”

(一)啥是 Addition-Based 微调

Addition-Based微调,简单来说,就是在大模型原有的参数基础上,增加额外的参数,然后对这些额外的参数进行调整,而原来的大部分参数保持不变。这就好比给大模型 “加装备”,原来的模型就像是一个战士,已经有了很强的基础能力,现在给它增加一些新的装备,通过调整这些装备,让它在特定的战斗中表现得更好。

(二)具体是怎么 “加装备” 的呢

在实际操作中,Addition-Based微调衍生出多种具体实现方案,其中最具代表性的是Prefix Tuning、Prompt Tuning 和 Adapter Tuning。这三种方法就像给大模型设计了不同款式的 “装备”,虽然外观和功能各有侧重,但核心思路都是 “新增参数+定向优化”。

1. Prefix Tuning:给模型 “写好开头”

原理:想象你让一个作家写小说,直接让他自由发挥可能主题跑偏,但如果先给他一个故事开头(比如 “在一个暴雨倾盆的夜晚,侦探小明接到了一个神秘电话”),他就能顺着这个方向展开。Prefix Tuning 就是给模型输入加上一段可训练的连续前缀向量,告诉模型“接下来要处理什么任务”,同时保持原模型参数冻结。

实现方式:在模型的输入层或隐藏层前,插入一段长度为k的虚拟 token(比如 GPT 系列模型中每个 token 对应一个向量),这些token的向量不是固定的,而是通过训练学习得到的 “任务专属前缀”。

具体案例:假如你经营一家花店,想让大模型帮忙撰写介绍花卉养护知识的公众号文章。正常输入可能只是 “玫瑰的养护方法”,经过 Prefix Tuning,会在前面添加一段训练好的前缀向量,这个向量就像是在告诉模型:“接下来要创作一篇面向普通花卉爱好者的公众号文章,语言要生动活泼、通俗易懂,以玫瑰养护为主题,先介绍玫瑰习性,再详细讲浇水、施肥、修剪等养护要点”。模型基于这段前缀,就能生成一篇符合花店需求的文章,从玫瑰适合的生长环境,讲到不同季节的浇水频率,还会配上一些有趣的养护小窍门,吸引读者阅读。

优势在于只需要优化前缀参数(通常占原模型参数的0.1%-1%左右),训练成本极低。

2. Prompt Tuning:让 “提示词” 更聪明

原理:大家平时用DeepSeek时,会输入 “请帮我写一封求职信” 这样的提示词,Prompt Tuning就是让这些提示词变得更 “智能”。不过它优化的不是离散的文字,而是将提示词转化为连续的向量空间中的最优任务指令,本质上是给模型“定制化考试题目”。

实现方式

传统提示词是人工设计的固定文本(如 “以下是一道数学题,答案用  {}标注”),而 Prompt Tuning 会把这些提示词转化为模型能理解的连续向量(称为 “软提示”),通过反向传播优化这些向量的数值。

具体案例:在教育领域,当模型需要解答数学题 “计算 25×(3+7)” 时,Prompt Tuning 会在输入前添加一组经过训练的向量,引导模型生成详细的解题步骤:“先计算括号内的加法 3+7=10,再将结果乘以 25,得到 25×10=250”,而不是直接给出答案。

相较于手动设计提示词,这种方法能自动找到最适合特定任务的 “隐形指令”,尤其适合复杂任务(如多步推理),但需要注意提示词的长度和位置,过长可能干扰模型原有逻辑。

3. Adapter Tuning:给模型装 “小插件”

原理:如果把大模型比作一台多功能电脑,Adapter Tuning 就是给它安装针对特定任务的 “外接显卡”—— 在模型的某些层之间插入小型神经网络(称为 Adapter),只训练这些 Adapter 的参数,原模型参数保持不变。

实现方式

以 Transformer 架构为例,通常在每层的注意力机制或前馈网络后添加一个 “瓶颈结构”(比如先压缩维度再恢复),这个瓶颈结构就是 Adapter,包含少量可训练参数。

具体案例:假设你运营一个美食推荐平台,既要让大模型根据用户口味偏好推荐菜品,又要根据食材库存生成菜单。针对推荐菜品任务,给大模型添加一个 Adapter。这个 Adapter 会把用户输入的口味信息,比如 “喜欢酸甜口味、偏好海鲜”,转化为模型能理解的特征向量,让模型精准推荐诸如糖醋鱼、菠萝咕咾肉等菜品。而当切换到生成菜单任务时,另一个 Adapter 会读取食材库存数据,像 “现有土豆、牛肉、洋葱”,将其转化为模型可处理的信息,输出包含土豆烧牛肉、洋葱炒牛肉等菜品的菜单。这两个 Adapter 就如同电脑上针对不同任务的专业插件,互不干扰,还能随时切换使用。

这种方法的优势是 “即插即用”,同一大模型可以通过加载不同的 Adapter 处理多个任务,且内存占用极低(单个 Adapter 通常仅占原模型参数的 0.1%-1%)。Google 的 T5 模型就通过 Adapter 实现了多语言翻译任务的高效切换。

(三)和传统方法的区别

这三种 Addition-Based 方法与传统微调的区别,就像 “升级电脑” 的不同策略:全量微调是把整台电脑拆开重装(费时费钱),部分微调是只换显卡不换主板(效果有限),而 Addition-Based 方法是给电脑加装专用外设(如绘图显卡、游戏手柄)—— 不破坏原有配置,却能针对性提升特定性能。

比如同样处理中文医疗问答任务:

全量微调需要训练 1000 亿参数,耗时数天,还可能让模型忘记英文对话能力;

Adapter Tuning 只需训练 10 亿 Adapter 参数,1 天内完成,且原模型的英文、通用问答能力丝毫不受影响;

Prefix Tuning 更轻便,只需训练 3 亿前缀参数,适合快速上线小规模医疗咨询机器人。

四、Addition-Based 微调的优势:小成本大收获

(一)节省资源,性价比高

大模型的参数数量庞大,全量微调需要大量的计算资源,这对于很多企业和个人来说,是一笔不小的开支。而 Addition-Based 微调只需要增加少量的额外参数,调整这些参数所需的计算资源和时间就少多了。

(二)保留 “初心”,能力不丢

大模型在训练的时候,学会了很多通用的知识和技能,这些是它的 “基本功”。如果采用全量微调,可能会让它在调整特定任务的时候,把这些 “基本功” 给忘了。而 Addition-Based 微调因为大部分原有参数保持不变,所以大模型原有的通用能力得以保留。

(三)灵活适应,多种任务轻松搞

不同的任务有不同的需求,Addition-Based 微调可以通过增加不同的额外参数,来让大模型适应各种不同的任务,当需要切换任务的时候,只需要调整对应的额外参数就行了,不需要对整个模型进行大的改动,非常灵活。

五、Addition-Based微调的挑战

(一)额外参数的设计很关键

怎么设计这些额外参数,才能让它们更好地适应特定任务呢?这是一个需要研究的问题。如果额外参数的设计不合理,可能无法让模型很好地学习到任务的知识,效果就会大打折扣。比如说,添加的新层结构不合适,或者插入的参数位置不对,都可能影响模型的性能。

(二)模型的融合需要技巧

新增的额外参数和原有的大模型参数之间需要很好地融合,才能让模型整体表现良好。如果融合不好,可能会出现 “水土不服” 的情况,比如新增参数的信息无法很好地传递到原有模型中,或者原有模型的信息对新增参数产生干扰。这就需要在技术上进行优化,找到合适的融合方式。

(三)效果评估有难度

如何评估 Addition-Based 微调后的模型效果呢?因为它涉及到新增参数和原有参数的共同作用,评估指标可能需要综合考虑多个方面。而且,不同的任务有不同的评估标准,需要制定合适的评估方法,才能准确判断微调的效果。

六、总结

Addition-Based微调就是在大模型原有参数的基础上增加额外参数进行调整,它具有节省资源、保留模型原有能力、灵活适应多种任务等优势,适合数据量不大、需要快速部署和多任务切换等场景。虽然它也面临着额外参数设计、模型融合和效果评估等挑战,但未来前景十分广阔。

通过了解这种微调方法,我们可以更好地认识到大模型是如何在不同的场景中发挥作用的,也能看到人工智能技术在不断地优化和进步。希望大家对大模型的微调有了更清晰的认识,也期待未来人工智能能给我们带来更多的惊喜。

参考文献

[1] https://arxiv.org/abs/2101.00190

[2] https://arxiv.org/abs/2104.08691

[3] https://arxiv.org/abs/1902.00751

[4] https://aclanthology.org/2021.acl-long.353.pdf

[5] https://arxiv.org/pdf/2104.08691

[6] https://zhuanlan.zhihu.com/p/621700272

图片

猜你喜欢


  1. 为什么全参数微调能让大模型从“通才”变“专才”?

  2. 一文读懂大模型微调的常用方法

  3. 智谱AutoGLM沉思:探索新一代AI智能体的思考与行动能力

  4. Manus:从L1到L3的AI进化之旅" data-itemshowtype="0" target="_blank" linktype="text" data-linktype="2">揭秘Manus:从L1到L3的AI进化之旅

  5. 湖南大学 | 我们该如何看待DeepSeek——what, how, way, and next?

图片

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询