微信扫码
与创始人交个朋友
我要投稿
一、一句话说清预训练和微调的本质区别
预训练的目标、采用的数据集、需要的GPU数量都不同。但如果要从深度学习训练本质说清区别,它是:
预训练采用随机初始化模型参数的方式,构造模型,然后通过大量的未打标签数据进行训练,学习语料的通用特征;而微调会从预训练模型中加载参数,保留了预训练过程中学到的通用特征,通过少量高质量的打标签语料来训练模型,以提高模型在特定任务上的能力和性能。
上文提到的参数包含:权重,偏置,Word Embeddings,Positional Encoding,注意力机制参数等。
预训练的主要目标是通过大规模的无监督数据集(如文本语料库)来学习语言的基本结构和语义特征。预训练通常涉及以下步骤:
随机初始化权重:模型的参数,如权重和偏置在预训练开始时是随机初始化的。
大规模数据集:使用大量的无监督数据进行训练。
学习通用特征:模型通过优化损失函数(如语言模型的交叉熵损失)来学习语言的通用特征。
随机初始化:模型的所有参数(权重、偏置等)在预训练开始时是随机的。
大规模数据:使用大规模的无监督数据集进行训练。
通用特征:学习语言的基本结构和语义特征,为后续任务提供一个良好的起点。
微调的主要目标是通过特定任务的数据集来优化模型在该任务上的性能。微调通常涉及以下步骤:
加载预训练权重:模型的权重和偏置从预训练模型中加载。
特定任务数据:使用特定任务的数据集进行训练。
优化特定任务性能:模型通过优化损失函数来调整参数,以提高在特定任务上的性能。
加载预训练权重:模型的参数从预训练模型中加载,保留了预训练过程中学到的通用特征。
特定任务数据:使用特定任务的数据集进行训练。
任务优化:进一步调整模型参数,以优化在特定任务上的性能。
训练效率:预训练通常需要大量的计算资源和时间,因为它需要在大规模数据集上训练模型的所有参数。而微调则相对高效,因为它在预训练模型的基础上进行,只需要进一步优化特定任务的数据。
模型性能:预训练模型已经学习了语言的通用特征,这使得微调能够更快地收敛,并且在特定任务上表现更好。直接从随机初始化开始训练特定任务模型,通常需要更多的数据和时间,且性能可能不如预训练+微调的方式。
应用场景:预训练模型可以作为通用的基础模型,适用于多种下游任务。通过微调,可以快速适应不同的任务需求,而不需要从头开始训练模型。
三、预训练代码展示
我们以GPT2为例
https://huggingface.co/docs/transformers/v4.44.0/en/model_doc/gpt2#transformers.GPT2LMHeadModel
如果要对GPT-2进行预训练加载,需要使用到GPT2LMHeadModel和GPT2Config这两个类。
由于模型很小,单卡H100就能预训练:
训练后的模型可以进行推理验证。
四、微调代码展示
我们微调一个模型,通常指的是Supervised Fine Tuning。SFT又分为Parameter-Efficient Fine-Tuning (PEFT) 和 Full Fine Tuning。
PEFT实现中,目前像LoRA,QLoRA,GA-LoRA都比较流行。
我们先看Full Fine Tuning加载模型的方式,调用的是AutoModelForCausalLM.from_pretrained的类,它会获取预训练模型的参数。
model = AutoModelForCausalLM.from_pretrained(model_name, attn_implementation=attn_implementation, device_map={"": 0})model.gradient_checkpointing_enable(gradient_checkpointing_kwargs={'use_reentrant':True})
关于完整的预训练代码,参考repo中:
https://github.com/davidsajare/david-share.git
下的:DeepLearning/SmolLM-Full-Fine-Tuning
接下来我们看微调、LoRA和QLoRA在代码实现上的区别。
在加载模型和训练参数方面,全微调、LoRA和QLoRA有以下区别:
全微调
直接加载完整的模型进行训练。
使用AutoModelForCausalLM.from_pretrained
加载模型。
LoRA
加载模型后,使用LoRA配置进行参数高效微调。
使用peft
库中的LoraConfig
来配置LoRA参数。
目标模块通常是特定的投影层,如k_proj
、q_proj
等。
QLoRA
在LoRA的基础上,结合量化技术(如4-bit量化)以减少内存占用。
使用BitsAndBytesConfig
进行量化配置。
需要调用prepare_model_for_kbit_training
来准备模型。
全微调
训练所有模型参数。
通常需要更大的内存和计算资源。
使用标准的优化器如adamw_torch
。
LoRA
只训练LoRA插入的低秩矩阵,其他参数保持不变。
训练速度较快,内存占用较少。
使用paged_adamw_8bit
等优化器。
QLoRA
结合LoRA和量化技术,进一步减少内存占用。
适合在资源有限的环境下进行大模型微调。
同样使用paged_adamw_8bit
优化器。
需要指出的是,在进行LoRA或者QLoRA微调时,我们可以指定训练的模块,如:
详见:https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Continue-Pre-training
四、关于训练的分布式实现
毫无疑问,大语言模型的预训练需要多级多卡。这时候就需要分布式训练。
目前预训练的分布式底层可以通过调用NCCL实现。上层工具可以用Megatron、DeepSpeed、HF的accelerate库(目前支持FSDP)。这些工具较好的实现了DP/PP/TP。
Megatron与DeepSpeed结合实现预训练详见:
https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Megatron%2BDeepspeed-Pretrain-GPT2
Deepspeed实现SFT的示例详见:
https://github.com/davidsajare/david-share/tree/master/Multimodal-Models/DeepSpeed-FT-Stable-Diffusion
目前一些开源的微调工具如Axolotl,也能直接对接DeepSpeed,示例详见:
https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Fine-tuning-with-Axolotl
使用accelerate
的FSDP时,可以结合其他并行策略来实现更高效的训练。
Data Parallelism (DP):
FSDP本身就是一种数据并行策略,通过对模型参数进行分片来实现。
Pipeline Parallelism (PP):
可以将模型分成多个阶段,每个阶段在不同的设备上运行。需要手动划分模型并管理数据流。
Tensor Parallelism (TP):
将单个层的计算分布在多个设备上。需要对模型的计算图进行修改。
要结合这些策略,通常需要对模型和训练脚本进行较多的自定义和调整。accelerate
提供了一些工具来简化这些过程,但具体实现可能需要结合PyTorch的其他库(如
torch.distributed
)和自定义代码。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-11
2024-07-11
2024-07-09
2024-09-18
2024-06-11
2024-07-23
2024-07-20
2024-07-12
2024-07-26
2024-07-23
2024-11-18
2024-11-16
2024-11-16
2024-10-31
2024-10-31
2024-10-27
2024-10-26
2024-10-25