AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


新突破:上海交通大学研究团队用极少参数实现接近全量微调效果
发布日期:2024-07-31 07:21:52 浏览次数: 1731 来源:行客科技


【行客按】上海交通大学的研究者们推出了一种针对大规模模型的高效微调(PEFT)的新框架,旨在解决模型参数不断增大的挑战。他们提出的“子空间微调”框架,试图将各种现有的PEFT方法统一在一个理论之下。这种创新方法专注于调整原始参数的子空间,包括子空间的重构和扩展。

子空间微调框架探讨了不同PEFT方法如何操作子空间,并从分解理论的角度解释了它们的数学原理。此外,它为理解这些方法之间的性能差异及其内部动态提供了全面的理论基础。研究者基于此框架提出了两种新的PEFT方法,这些方法仅调整了0.02%的参数,却实现了接近全量微调的性能。

图1:子空间调整框架。a, 子空间调整努力确定最优权重 W∗ 在由 ϕ(W) 基所跨越的子空间上的最大投影。这里,ϕ(W) 表示原始冻结权重 W 的子空间变换。b, 子空间重构涉及重新缩放 W 的子空间以近似 W∗ ,或构建从原始派生的新子空间。子空间扩展旨在调整原始权重 W 的子空间,使其接近甚至包含 W∗ 。子空间组合包括子空间的重构和扩展。c, 子空间调整的数值视角。重构涉及修改原始冻结参数,而扩展则涉及添加新的可调参数

子空间调优框架

子空间调优框架是一种新的方法,旨在优化模型参数的一个子集,而不是全部参数,以达到在特定任务上的高效微调。这种方法的核心在于识别并调整那些对任务性能影响最大的参数,从而减少必须调整的总参数数量,降低计算和存储的需求。

  1. 理论基础:框架的理论基础建立在参数敏感性分析上,通过这种分析可以识别出对模型输出变化最敏感的参数。这种分析帮助确定哪些参数是关键参数,应该包含在调优子空间中。

  2. 实现策略:实现时,子空间调优通过各种算法来定义子空间。这些算法可能包括基于梯度的方法、基于权重的方法或是通过先验知识手动定义的方法。

图2:a. 基于重构方法的子空间视图。微调奇异值涉及权重的重新缩放,而微调奇异向量则有效地重构子空间。b. 基于重构方法的数值视图。我们将子空间中的调整直接对应于它们的数值调整。c. 基于重构方法的性能。SSL和SSB在微调不到0.1%预训练模型参数的情况下,能够达到全面微调99%的性能。与x轴平行的水平虚线,标记为FT,代表全面微调的性能。每种方法的平均得分是在三个大型预训练模型(RoBERTa-base、DeBERTaV3-base和RoBERTa-large)上使用GLUE基准测试评估的。误差棒表示五次运行中平均值的标准误差。

新型PEFT方法

基于子空间调优框架,论文提出了两种新型的PEFT方法,旨在进一步提高调优的效率和效果。

  1. 方法一:动态子空间调整:这种方法在训练过程中动态地调整子空间的定义。它根据模型在训练过程中的表现来增加或减少子空间中的参数数量。这种动态调整使得模型能够更灵活地适应训练数据的特点,尤其是在数据分布非常不均匀的情况下。

  2. 方法二:优化子空间选择:这种方法通过优化算法来选择最优的子空间,这个过程包括评估不同子空间配置下模型的表现,并选择那些能够最大化模型性能的配置。优化过程可以利用遗传算法、模拟退火或其他全局优化策略来实现。

图3:基于扩展的方法的子空间和数值视图。基于扩展的方法引入一个额外的权重矩阵,然后试图在由这个额外权重和原始权重跨越的子空间内找到最优权重投影。为了实现这一点,额外矩阵构建的子空间的基应尽可能补充原始权重的基。右图列出了一些常见的基于扩展的方法及其对矩阵的操作。

这两种新型PEFT方法已经在多个公共数据集上进行了实验验证。实验结果显示,这些方法不仅减少了调整所需的参数数量,而且在多数情况下还能保持甚至提高模型的性能。这证明了子空间调优框架在实际应用中的可行性和有效性,尤其是在资源受限的情况下。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询