我要投稿

大模型微调七步法：让模型更懂你

发布日期：2024-04-19 08:04:05 浏览次数： 4302

作者：Tech123

微信搜一搜，关注“Tech123”

近年来，自然语言处理 (NLP) 领域取得了重大进展，这主要得益于 OpenAI 的 GPT 系列等大型语言模型 (LLM) 的涌现。这些强大的模型彻底改变了我们处理自然语言任务的方式，在机器翻译、情感分析和自动文本生成等方面取得了突破性进展。由此催生了大量与自然语言处理相关的 AI 初创团队和产品。

然而，尽管大模型展现出强大的能力，其训练成本却极其高昂。2017 年，训练 Transformer 模型需要约 900 美元。2019 年发布的 RoBERTa Large 模型训练成本约为 160,000 美元。2023 年，OpenAI 的 GPT-4 和 Google 的 Gemini Ultra 的训练成本将分别高达 7800 万美元和 1.91 亿美元。

从上图可以看出，随着时间的推移，模型的规模不断增长训练成本也随之水涨船高，已经超出了大多数普通公司和团队的承受能力。因此，对于大多数 AI 初创团队来说，通过微调预训练模型使其更加适用于特定应用或领域是更为经济实惠且可行的选择。

本文将大模型的微调分为 7 个简单步骤，以便让大家对微调大模型有一个直观的认识。

第1步：明确我们的具体目标

假如我们要训练一个语言模型，让它能够推断我们的用户输入的文本的情感。例如中性，正面，负面。

第2步：选择一个预训练模型，并准备好微调的数据集

目前有许许多多开源的预训练模型，我们需要了解它们的特点从中选择一个合适的模型，并准备好我们的微调数据集。

作为测试，我们选择了GPT2模型，并且使用Hugging Face上开源的数据集。实际业务中，微调用的数据集往往需要AI团队投入大量时间和精力进行准备。

第3步：加载微调数据集

由于我们使用的是Hugging Face开源的数据集，所以直接调用接口加载就可以了。

import pandas as pd  from datasets import load_dataset# 导入数据集  dataset = load_dataset("mteb/tweet_sentiment_extraction")  df = pd.DataFrame(dataset['train'])

接下来，我们打印数据集的部分内容

df.head(10)

第4步：加载分词器

由于大型语言模型 (LLM) 处理的是token而不是单词，因此我们需要一个分词器将数据发送到模型。

from transformers import GPT2Tokenizertokenizer = GPT2Tokenizer.from_pretrained("gpt2")  tokenizer.pad_token = tokenizer.eos_token  def tokenize_function(examples):     return tokenizer(examples["text"], padding="max_length", truncation=True)  
tokenized_datasets = dataset.map(tokenize_function, batched=True)  df1= pd.DataFrame(tokenized_datasets["train"])  df1.head(10)

为了提高我们的处理性能，生成了两个较小的子集。

small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))  small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))

第5步：初始化基础模型

我们选择的基础模型是GPT2，调用相关方法进行初始化即可。

from transformers import GPT2ForSequenceClassification#初始化基础模型  model = GPT2ForSequenceClassification.from_pretrained("gpt2", num_labels=3)

第6步：定义评估函数

在开始实际训练之前，我们需要定义一个函数来评估微调后的模型。

import evaluateimport numpy as np
metric = evaluate.load("accuracy")  def compute_metrics(eval_pred):     logits, labels = eval_pred     predictions = np.argmax(logits, axis=-1)     return metric.compute(predictions=predictions, references=labels)

第7步：训练（微调）并评估

最后一步是训练（微调）模型，调用trainer.train()即可。

training_args = TrainingArguments(     output_dir="test_trainer",     #evaluation_strategy="epoch",     per_device_train_batch_size=1,     per_device_eval_batch_size=1,       gradient_accumulation_steps=4     )  trainer = Trainer(     model=model,     args=training_args,     train_dataset=small_train_dataset,  #训练集   eval_dataset=small_eval_dataset,    #测试集   compute_metrics=compute_metrics,    #评估函数  )  trainer.train()

接下来就可以使用评估函数，对微调的结果进行评估。

trainer.evaluate()

结尾

通过上面的例子我们可以看到对大模型进行微调的过程并不复杂。我们可以根据特定业务需求准备相应数据集，并选择合适的大模型进行适配，使模型更好地应用于特定业务场景中。通过微调，我们可以显著提升大模型在特定任务上的性能，并降低训练成本，这对于大多数 AI 初创团队和中小型企业来说都是一个更经济实惠且可行的选择。