我要投稿

LoRA与全量微调：大型语言模型高效微调方法比较

发布日期：2024-05-21 07:50:27 浏览次数： 2976

作者：六月在线

微信搜一搜，关注“六月在线”

哥伦比亚大学和Databricks的研究人员对比研究了LoRA和全微调技术在大语言模型中的应用，发现尽管LoRA在编程和数学任务上的准确性和样本效率低于全微调，但其在正则化和内存效率方面具有优势，同时LoRA能更好地维持基础模型的能力并生成多样化的输出，使其在特定情况下具有重要价值。

论文介绍

机器学习模型可能包含数十亿个参数，需要复杂的方法来有效地微调其性能。研究人员的目标是提高这些模型的准确性，同时最大限度地减少所需的计算资源。这种改进对于自然语言处理和人工智能等各个领域的实际应用至关重要，因为高效的资源利用可以显著影响整体性能和可行性。

微调LLM的一个重大问题是需要大量的GPU内存，这使得该过程成本高昂且资源密集。挑战在于开发高效的微调方法，同时不影响模型的性能。这种效率尤为重要，因为模型必须适应新任务，同时保留其先前学习的能力。高效的微调方法确保大型模型可以在各种应用中使用，而不会产生过高的成本。

哥伦比亚大学和Databricks Mosaic AI的研究人员探索了各种方法来解决这个问题，包括完全微调和参数高效的微调技术，如低秩自适应（LoRA）。完全微调涉及调整所有模型参数，这在计算上非常昂贵。相比之下，LoRA旨在通过仅修改一小部分参数来节省内存，从而减少计算负载。尽管LoRA很受欢迎，但与完全微调相比，其有效性一直存在争议，尤其是在编程和数学等具有挑战性的领域，因为精确的性能改进至关重要。

该研究比较了LoRA和完全微调在两个目标领域的表现：

Programming
Mathematics

他们考虑了指令微调，涉及大约100,000个提示-响应对，并继续使用大约100亿个非结构化token进行预训练。比较的目的是评估在不同的数据机制和任务的复杂性下，LoRA和完全微调如何适应这些特定领域。这种全面的比较提供了对每种方法在不同条件下的优缺点的详细了解。

研究人员发现，在编程和数学任务中，LoRA的性能通常不如完全微调。例如，在编程领域，完全微调在200亿个token时达到了0.263的人类评估峰值分数，而最佳LoRA配置在160亿个token时仅达到0.175。类似地，在数学领域，完全微调在4个epochs时达到了0.642的GSM8K峰值分数，而最佳LoRA配置在同一点达到了0.622。尽管存在这种性能不足，但LoRA提供了一种有益的正则化形式，这有助于保持基本模型在目标领域之外的任务上的性能。这种正则化效果比权重衰减和dropout等常用技术更强，这使得LoRA在保持基本模型性能方面具有优势，这一点至关重要。

详细分析表明，完全微调导致的权重扰动比LoRA配置中通常使用的扰动大10到100倍。例如，完全微调需要高达256的秩，而LoRA配置通常使用16或256的秩。这种秩的显著差异可能解释了观察到的一些性能差距。研究表明，LoRA的低秩扰动有助于保持比完全微调更多样化的输出生成，这通常会导致有限的解决方案。这种输出的多样性在需要多样化和创造性解决方案的应用中是有益的。

总之，虽然LoRA在准确性和样本效率方面不如完全微调，但它在正则化和内存效率方面具有显著优势。该研究表明，优化超参数，如学习率和目标模块，以及理解学习和遗忘之间的权衡可以增强LoRA在特定任务中的应用。研究强调，尽管完全微调通常表现更好，但LoRA保持基本模型能力和生成多样化输出的能力使其在某些情况下很有价值。这项研究为平衡LLM微调中的性能和计算效率提供了重要的见解，为更可持续和多功能的AI发展提供了一条途径。