AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


LLM微调新方法DoRA:权重幅度与方向的智能分解,比LoRA更精细、更有效!
发布日期:2024-04-25 08:48:51 浏览次数: 2355 来源:PaperAgent


DoRA(Weight-Decomposed Low-Rank Adaptation:权重分解低阶适应)是由NVIDIA最新提出的一种新的参数高效的微调(PEFT)方法。DoRA旨在通过分解预训练权重为幅度(magnitude)和方向(direction)两个组成部分然后分别微调,来提高微调的学习能力和训练稳定性,同时避免额外的推理开销,它特别适用于与LoRA(Low-Rank Adaptation)结合使用。

DoRA方法的关键步骤如下:

  1. 权重分解:预训练权重矩阵W0被分解为幅度向量m和方向矩阵V。这种分解确保了V的每一列都是单位向量,而m中的每个元素定义了相应向量的大小。
  2. 微调过程:在微调过程中,保持方向矩阵V固定,只对幅度向量m进行训练。方向矩阵V的更新通过LoRA方法实现,即通过两个低秩矩阵的乘积来近似权重变化。

  3. LoRA的应用:DoRA利用LoRA来高效地更新方向组件,这允许在保持参数数量较少的同时,实现对模型的精细调整。

DoRA概述,该方法将预训练权重分解为幅度和方向两个组成部分

提出DoRA的动机是通过对过权重分解分析来探讨FT(Full Fine-Tuning)和LoRA之间的固有差异,发现LoRA和FT在更新模式上有明显的不同:

  • FT(全微调)倾向于在幅度和方向上进行更多样化的更新,这可能反映了其更复杂的学习模式,能够适应各种下游任务。

  • LoRA(低秩适应)则显示出在幅度和方向更新之间存在正相关性,即幅度和方向的变化往往是成比例的,这可能限制了LoRA在更精细调整模型权重方面的能力。

  • DoRA(权重分解低秩适应)则展现出与FT相似的学习模式,能够在幅度和方向上进行更独立的调整,这表明DoRA能够更有效地模仿FT的学习能力,同时保持参数效率。

三种微调方法在不同层级和中间步骤中对查询矩阵的幅度和方向更新。不同的标记代表不同训练步骤的矩阵,不同的颜色代表每一层的矩阵。

实验结果表明,DoRA在各种下游任务上,如常识推理、视觉指令微调和图像/视频-文本理解等,都一致地优于LoRA。此外,DoRA还展示了与FT相似的学习行为,无论是从经验上还是数学上,都表明其学习能力与FT相近。
LLaMA 7B/13B在八个常识推理数据集上与各种PEFT方法的准确率比较。DoRA†:DoRA的调整版本,其秩减半。

图像/视频-文本理解:各种PEFT方法结合VL-BART进行多任务准确率评估

视觉指令微调:LLaVA1.5-7B在广泛的七个视觉-语言任务上的评估结果

文章还探讨了DoRA与其他LoRA变体的兼容性,并通过一系列消融研究来证明DoRA在性能上超越LoRA,无论训练样本数量和秩变化如何。

GPT-4为微调后的LLaMA-7B/LLaMA2-7B生成的答案在MT-Bench上计算的平均分数

使用不同数量的Alpaca训练样本微调后的LLaMA2-7B在MT-Bench上的性能表现

最后,他们分析了DoRA的调整粒度,并展示了DoRA可以通过选择性地更新某些模块的方向组件,以更少的可训练参数实现比LoRA更好的准确性。

论文的结论部分指出,DoRA在语言和视觉领域之外的通用性还有待探索,尤其是在音频领域。此外,研究者们还希望探索DoRA在其他应用中的潜力,例如在Stable Diffusion文本到图像微调中的应用。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询