微信扫码
与创始人交个朋友
我要投稿
DoRA(Weight-Decomposed Low-Rank Adaptation:权重分解低阶适应)是由NVIDIA最新提出的一种新的参数高效的微调(PEFT)方法。DoRA旨在通过分解预训练权重为幅度(magnitude)和方向(direction)两个组成部分然后分别微调,来提高微调的学习能力和训练稳定性,同时避免额外的推理开销,它特别适用于与LoRA(Low-Rank Adaptation)结合使用。
DoRA方法的关键步骤如下:
微调过程:在微调过程中,保持方向矩阵V固定,只对幅度向量m进行训练。方向矩阵V的更新通过LoRA方法实现,即通过两个低秩矩阵的乘积来近似权重变化。
LoRA的应用:DoRA利用LoRA来高效地更新方向组件,这允许在保持参数数量较少的同时,实现对模型的精细调整。
提出DoRA的动机是通过对过权重分解分析来探讨FT(Full Fine-Tuning)和LoRA之间的固有差异,发现LoRA和FT在更新模式上有明显的不同:
FT(全微调)倾向于在幅度和方向上进行更多样化的更新,这可能反映了其更复杂的学习模式,能够适应各种下游任务。
LoRA(低秩适应)则显示出在幅度和方向更新之间存在正相关性,即幅度和方向的变化往往是成比例的,这可能限制了LoRA在更精细调整模型权重方面的能力。
DoRA(权重分解低秩适应)则展现出与FT相似的学习模式,能够在幅度和方向上进行更独立的调整,这表明DoRA能够更有效地模仿FT的学习能力,同时保持参数效率。
三种微调方法在不同层级和中间步骤中对查询矩阵的幅度和方向更新。不同的标记代表不同训练步骤的矩阵,不同的颜色代表每一层的矩阵。
图像/视频-文本理解:各种PEFT方法结合VL-BART进行多任务准确率评估
文章还探讨了DoRA与其他LoRA变体的兼容性,并通过一系列消融研究来证明DoRA在性能上超越LoRA,无论训练样本数量和秩变化如何。
使用不同数量的Alpaca训练样本微调后的LLaMA2-7B在MT-Bench上的性能表现
最后,他们分析了DoRA的调整粒度,并展示了DoRA可以通过选择性地更新某些模块的方向组件,以更少的可训练参数实现比LoRA更好的准确性。
论文的结论部分指出,DoRA在语言和视觉领域之外的通用性还有待探索,尤其是在音频领域。此外,研究者们还希望探索DoRA在其他应用中的潜力,例如在Stable Diffusion文本到图像微调中的应用。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-14
2024-04-26
2024-03-30
2024-04-12
2024-05-10
2024-07-18
2024-05-22
2024-05-28
2024-04-25
2024-04-26
2024-11-14
2024-11-13
2024-11-13
2024-11-13
2024-11-12
2024-11-11
2024-11-08
2024-11-07