我要投稿

从零开始学习大模型-第六章-大模型微调的概念

发布日期：2024-04-10 20:45:51 浏览次数： 7725

作者：写代码的中年人

微信搜一搜，关注“写代码的中年人”

什么是大模型微调？

模型微调（Fine-tuning）是指在已有的大规模预训练语言模型（如GPT-3、GPT-4、BERT等）基础上，针对特定任务或领域进行的二次训练过程。预训练模型通常在大规模无标注文本数据上进行训练，以学习语言的通用表示和规律。微调则是利用针对性的小规模、有标签的数据集，调整模型参数以使其更好地适应并精准完成特定任务，如文本分类、问答、机器翻译、情感分析等。

微调可以根据对预训练模型调整的程度和方式细分为多种类别。以下是几种常见的微调类型及其区别：

全微调(Full Fine-tuning)：

全微调的定义：全微调是对整个预训练模型的所有参数进行全面更新和优化。在这一过程中，模型的所有层（包括底层的嵌入层、中间的隐藏层和顶层的输出层）都将参与训练，并根据新任务的数据调整各自的权重。

全微调的特点：全微调能够充分利用预训练模型的知识，并在此基础上对模型进行大幅度的调整以适应新的任务需求。这种方法通常适用于新任务与预训练任务相差较大或者需要模型具有极高灵活性和自适应能力的情况。

全微调的优点：

全微调允许模型在预训练阶段学到的大量语言知识和通用特征的基础上进行进一步学习，这通常能显著提升模型在新任务上的性能，尤其是当预训练任务与目标任务相关时。对所有参数进行调整使得模型能够灵活适应各种复杂的任务需求和数据分布变化，尤其对于与预训练任务差异较大的情况，全微调能更有效地捕捉任务特异性。

相比于部分微调或使用特定微调技术（如Adapter、LoRA等），全微调无需在模型内部添加额外的模块或层，模型结构简单，易于理解和实现。全微调过程中，模型从前向后进行整体训练，可以学习到从输入到输出的完整映射关系，有利于优化全局优化目标，对于某些需要全局信息的任务（如文本生成）可能更为有效。

很多深度学习框架和工具（如Hugging Face Transformers）对全微调提供了直接支持，开发者可以便捷地使用预训练模型进行微调，并快速部署到实际应用中

全微调的缺点：

由于需要更新所有模型参数，全微调通常需要更多的计算资源（如GPU时间、内存）和更长的训练时间，特别是对于大型预训练模型（如GPT-3、ChatGLM3等）。在目标任务数据量有限的情况下，全微调可能导致模型过拟合，即对训练数据学习的过于具体，从而在未见过的数据上表现不佳。需要采取正则化、早停等策略来防止过拟合。

对所有参数进行重新训练可能导致模型遗忘部分预训练阶段学到的通用知识，特别是当微调数据集较小且分布与预训练数据相差较大时，模型的泛化能力可能受到负面影响。

当需要对同一预训练模型进行多次微调以适应不同任务时，每次全微调都会完全覆盖之前的学习结果。若想保留对多个任务的适应能力，需要分别保存每个任务的微调模型副本，增加了存储成本和模型管理复杂性。

若微调过程中出现不良训练现象（如梯度爆炸、优化困难等），可能对预训练模型的内部结构造成破坏，影响其在其他任务上的表现。尽管这种情况相对罕见，但对珍贵的预训练模型资源来说仍是一种风险。

部分微调

(Partial Fine-tuning/Repurposing)：

部分微调的定义：部分微调仅更新模型的顶层或一小部分中间层的参数，而保留大部分或全部底层预训练模型参数不变。这可以通过冻结部分层的训练（不让其参数更新）或采用特殊结构（如Adapter、LoRA等）来实现。

部分微调的特点：部分微调旨在保留预训练模型在通用语言理解上的优势，同时以较低的成本对模型进行轻度调整以适应新任务。这种方法适用于新任务与预训练任务较为相关，或者希望尽可能保留预训练模型泛化能力的情况。

部分微调的优点：

只训练模型的部分参数，通常意味着更少的参数需要更新，这往往导致更快的收敛速度和更低的训练时间成本。预训练模型的底层通常学习到通用的语言结构和模式，部分微调可以避免这些已习得的通用特征被过度修改，从而保持对基础语言结构的良好捕获能力。

少量参数的调整相对不易过拟合特定任务的数据，尤其是在下游任务数据量有限的情况下，有助于保持模型的泛化性能。

需要更新的参数数量减少，意味着在训练过程中所需的计算资源（如GPU内存、计算力）相应降低，对于资源有限的环境更为友好。当面临多个相关任务时，可以使用同一底层预训练模型，仅针对每个任务微调不同的顶层参数，实现知识的有效共享和跨任务迁移。

部分微调的缺点：

如果只微调模型的顶层，可能无法充分适应某些复杂或高度专业化的下游任务，因为底层特征可能不足以捕捉到这些任务特有的细微差异。顶层参数的调整空间有限，可能难以达到与全微调相当的性能水平，特别是当预训练模型的底层特征与目标任务不完全匹配时。

部分微调可能需要更精细的超参数调整和学习率策略设计，以确保仅更新的部分参数能够有效学习到新的任务特性，同时避免底层参数的退化。对于某些任务，可能需要模型的不同层次乃至整个网络结构都能适应新任务的特点。部分微调的固定更新范围可能限制了这种灵活性。

部分微调的效果很大程度上取决于预训练模型的质量及其底层特征对目标任务的适用程度。如果预训练模型与目标任务不匹配，部分微调可能无法取得良好效果。

常见的几种特定微调技术简介：

SFT 监督微调：

SFT(Selfie to Fine-tune)是一种监督微调(Supervised Fine-Tuning)技术，旨在利用自拍照片(selfies)来增强计算机视觉模型的性能。该技术由斯坦福大学的研究人员提出，用于改善人脸识别等视觉任务的性能。

SFT(Supervised Fine-Tuning)监督微调是一种深度学习中的常见技术，特别是应用于大语言模型(Large Language Models)。它建立在预训练模型的基础之上，通过利用带有标签的特定任务或领域的数据对模型进行进一步的训练，以使其更加精准地适应新的任务或数据分布。

LoRA微调：

LoRA(Layer-wise Relevance Adjustment)微调是一种特定于语言模型的微调技术，旨在解决传统微调方法中的一些问题，如过拟合、灵活性不足等。LoRA微调技术由Google AI提出，并用于改进BERT(Bidirectional Encoder Representations from Transformers)等语言模型。

LoRA微调的主要思想是在微调阶段，根据任务的需求，逐层地调整不同层的重要性，以提高模型在特定任务上的性能。与传统微调方法不同，LoRA微调并不是简单地调整所有参数的学习率或者解冻所有层进行端到端的微调，而是根据每层的重要性和贡献程度来调整学习率。

P-tuning v2微调：

P-tuning v2 是一种改进版的模型微调方法，旨在提高多语言模型的性能和泛化能力。该技术由北京大学的研究人员提出，用于改进跨语言和多语言任务中的预训练模型微调效果。

P-tuning v2 是 P-tuning(Parameter tuning)技术的升级版本，在原有 P-tuning 的基础上进行了改进和优化。P-tuning 是一种针对跨语言任务的微调方法，通过引入任务相关的 token 信息来调整模型参数，从而提高模型在不同语言的泛化能力。

Adapter 微调：

Adapter 微调技术最早由Pfeiffer 等人在2019年的一篇论文中提出。在这篇论文中，作者介绍了 Adapter 微调技术，并提出了 AdapterHub 框架，用于快速且有效地应用 Adapter 微调技术于不同的预训练模型和自然语言处理任务中。这个框架使得研究人员和从业者能够更轻松地利用适配器微调技术来适应各种任务，而无需重新训练整个模型，从而大大提高了模型的适应性和可用性。

Adapter 微调技术是一种用于微调预训练模型的方法，它旨在减少对整个模型参数的修改，而是专注于修改一小部分的参数。这种方法的主要思想是在预训练模型的基础上添加称为适配器的小型参数集合，用于特定任务的微调。