我要投稿

关于大模型微调那些事

发布日期：2024-06-30 19:37:43 浏览次数： 2897 作者：AI催晨箭

什么是模型的微调

模型的微调本质上是因为有些时候发现模型在某一个方面能力不够，所以我们通过一些训练的方法，希望把这个模型做一个更新，那更新后的模型在某一个方面上希望它的能力会提升，本质上是对模型的一个改动。

我们通过数据再基于训练的方式把原有的模型把它改造成新的模型。另外模型的改动本质上是对这个模型参数的改动，所以模型背后实际上是由一堆的参数来构成的，也就是从原有的参数变成新的参数，而且一个大模型它可能拥有 10 亿的参数，可能千亿的参数，所以参数的数量是非常庞大的。这里的参数我们可以理解为是很多数字的集合，而且这个参数我们通常可以把它组织成矩阵（千亿的参数）。

也就是对于原有的参数我们再加了一个变动的量，我们其实可以得到新的参数，所以我们可以变相地认为通过微调我们要学习的本质上就是这个改动的量，因为我们得到它之后，实际上我们加上原有的参数就可以得到新的模型，归根结底，那我们如何去学习这个变动的量？就是怎么去获得它？实际上我们真正学习的时候，大模型通常是包含可能几百亿甚至千亿的参数的。

学习这个变动的量方式分为两类：

全量的微调：把这里面的每个参数都通过学习的方法把它得出来。

参数高效的模型微调：可以用更少量的资源进行微调

所以简单理解的话，假设我们的模型原来包含是 100 亿的参数，那通过全量微调我们实际上要寻找 100 亿的这类的数字，所以它的复杂度是很高的。

那有没有一种方式我们可以用更少量的资源进行微调呢？那这个方法我们也把它叫做高效的微调的方法，英文叫PEFT(Parameter-efficient Fine-tuning）也称为轻量化微调（Lightweight Fine-tuning）。那其中最常见的一种技术叫LoRa。

讲 LoRa 之前，先普及一下LoRa核心背景，假如我们给张三提了一个任务，就是让他编写一个文章，然后这个文章可能包含 2000 字，然而张三本身他是比较啰嗦的人，所以他在写这种文章的时候通常会包含很多重复性的内容，不够简洁。2000 字虽然看起来是很多，但实际上它传达的内容是比较有限的，所以原本它可以用可能 100字， 200字可以把整个的思想可以表达出来，它偏偏可能用了 2000 多字来写这个文章。

基于这个思想我们可以去怀疑一下模型在训练时学到的这么多的参数是不是也有一些冗余的信息，虽然模型学习时使用了千亿的参数，但是参数传达的信息是非常有限的。如果参数（改动的量）所承载的信息是非常有限的，那实际上我们花了这么多的资源去训练参数，这个事情本质是浪费资源的。

但是我们从微调的本质的角度来讲，我们是真的恰恰希望参数所承载的信息是比较有限的，那这个怎么理解呢？那实际上我们还是回归到微调的本质。

通过微调我们是希望把模型的部分能力放大，但是同时保留大模型的其他的能力。这里改动的量也可以认为就是针对于我们想去提升的那部分的能力，所以这里有一个很重要的点，就是我们不希望把原来的模型改动太多，如果改动太多就意味着什么呢？那很多模型原来具备的比较强的能力消失了，这个我们也把它叫做模型灾难性遗忘。

总体来讲，那我们在微调的时候，我们是希望它具备所承载的信息是非常有限的的一个特性，在这样的一个假设条件下，我们有没有一些方式更加高效地去学出这些参数？我们现在假定想学习的参数，它具备这种特性，简单来看一下具备这种特性的这种数字它有什么样的一些规律。

那打比方，比如我们有这样的参数，对于第一个总共包含 9 个参数，但实际上我们可以很清楚地看到有价值的，就其中的一行。那对于第二个来讲也是类似的，那这里面 224 我们实际上可以通过 112 可以得出来，比如说每个数字我乘 2 我就可以得到224，所以这些我们可以把它称之为叫冗余的信息，所以很显然为了学习 9 个参数，我们没必要把每个参数都要单独的去选出来。这个本质上就是 Lora 的核心思想。

下面我们的问题就变成什么呢？我们要学习的这个参数形态可能是符合这种形式的，我们有没有一种方式可以更加高效地去进行学习？那这时候我们就可以引出 Lora 的概念，然后首先我们定义一个名词叫做矩阵，我们就简单的认为矩阵就是类似于长成这个样子，比如说包含几行几列，在这里我们把要学习的这个矩阵假设设置为W，而且我们知道W本身是一个包含很多参数的矩阵，但是具备这种性质（虽然参数很多，但实际上它所包含的价值是比较有限的）。

然后另外在这里我们要借助于线性代数的一个简单的性质，一个矩阵，如果符合刚才说的这些特性，我们实际上可以把这个矩阵近似的通过两个矩阵的乘积来替代，比如W=A*B。

假设有 100* 100 的矩阵，然后通过这种线性代数的性质可以把它拆解成两个矩阵的乘积，通过线性代数的性质可以把它拆解成两个矩阵的乘积，即W（100* 100）=A（100*k)*B(k*100）这是它的一个性质，所以 k 实际上是可变的一个参数。这里的 k 是可选的。而且 k 恰恰就是跟我们刚才提到的价值是相关的。假如我们觉得这个矩阵的价值没有那么大，也就是它所承载的信息没有那么多，那我可以用更小的 k 来替代。

如果这里的 k 越大，就意味着这里的矩阵所承载的信息量是更大的，因为在这里我们已经假定这个参数它具备一定这种特性，我们可以去选择更小的 k 来近似W，那我们在这里打个比方，如果 k 等于2，那就意味着这个A包含了 100* 2 总共 200 个参数。然后B包含了 2 乘以100，也就是两行 100 列包含了 200 个参数，加在一起总共是 400 个参数。

但这里的W可以看一下，它是 100* 100 的，所以总共包含1万个参数，所以在这里我们很明显的可以看到 400 是1万的4%，就意味着什么呢？假如我们现在的目标是学习W，那 W包含1万个参数，但在这里我们把这个 W 写成了A和B，则乘积的形式，所以学习它，其实在这里等价于我们要学习参数A和参数B，那这里的A和B总共包含了 400 个参数，所以这就意味着什么呢？我们的目标是学习遗忘的参数，但是因为它被近似成了A乘以B 两个新的矩阵，而且它俩加在一起仅仅包含了 400 个参数。

总体来讲，我们通过学习 400 个参数就可以达到我们去学习 w 的目标，那假如 k 等于一，那这个时候A 包含 100 个，B 包含 100 个，所以总共 200 个参数。所以这个时候那我们要学习的参数就变成了原来的2%，大大的降低了，这个就是 Lora 的核心思想。

另外这里的 k 我们把它叫做Rank，所以如果我们觉得这个矩阵所涵盖的信息量很少，我们可以选择比较小的k。如果我觉得它含金量比较大，那可以选择一些更大一点的k，所以这个 k 是可调节的，而且 k 越小的话，那我们所需要学习的参数会变得更少。

而且在 Lora 微调里面我们一般对 k 选择不会太大，比如说我们选个8、16、32，而且在大模型里面这个参数是非常多的，所以参数越多 k 越小，那我们百分比就会变得更小，所以节省我们大量的一个是显存空间，还有就是咱们学习的成本。