我要投稿

如何微调BERT模型来做文本分类任务？

发布日期：2024-05-22 21:16:01 浏览次数： 3214

作者：PyTorch研习社

微信搜一搜，关注“PyTorch研习社”

情感分析是指利用自然语言处理（NLP）技术判断文本表达的情感。是广泛应用于客户反馈评估，社交媒体情感跟踪和市场研究背后的重要技术。企业和其他组织可以利用文本所表达的情感评估公众舆论，提供改进的客户服务并增加其产品或服务。

BERT 是 Bidirectional Encoder Representations from Transformers 的缩写，它是一种基于 Transformers 架构的开源语言模型。BERT 旨在通过使用周围文本来建立上下文来帮助计算机在文本中理解歧义语言的含义。BERT 的双向性（Bidirectional，阅读给定单词的左和右上下文）在诸如情感分析之类的用例中被证明特别有价值。BERT 使用维基百科的文本进行与训练，并且可以通过问答数据集进行微调。

我们将本文学习如何使用 HuggingFace Transformers 库微调 BERT 来实现自己的情感分析项目。无论您是新手还是现有的 NLP 从业人员，我们都将在本教程中涵盖许多实用的策略和考虑因素，以确保您能够很好地微调 BERT。

安装必要的依赖包

在微调我们的模型之前需要安装一些必要的库。具体来说，我们需要：

PyTorch
Hugging Face 的 datasets 库
Hugging Face 的 transformers 库

我们可以按如下方式进行操作:

pip install transformers torch datasets

okay！

数据预处理

我们需要选择一些用于训练文本分类器的数据。在这里，我们将使用 IMDb 电影评论数据集，这是用于演示情感分析的经典数据集。

我们可以使用 datasets 库加载数据集：

from datasets import load_dataset
dataset = load_dataset("imdb")print(dataset)

我们需要对数据进行标记化（tokenize），为自然语言处理算法做好准备。BERT 有一个特殊的标记化步骤，可确保当句子片段被转换时，它将尽可能保持人类的连贯性。让我们看看如何使用 Transformers 中的 BertTokenizer 对数据进行标记。

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
def tokenize_function(examples):    return tokenizer(examples['text'], padding="max_length", truncation=True)
tokenized_datasets = dataset.map(tokenize_function, batched=True)

现在将数据集分为训练集和验证集：

from datasets import train_test_split
train_testvalid = tokenized_datasets['train'].train_test_split(test_size=0.2)train_dataset = train_testvalid['train']valid_dataset = train_testvalid['test']

DataLoaders 有助于在训练过程中有效管理批量数据。以下是我们为训练和验证数据集创建 DataLoader 的方法。

from torch.utils.data import DataLoader
train_dataloader = DataLoader(train_dataset, shuffle=True, batch_size=8)valid_dataloader = DataLoader(valid_dataset, batch_size=8)

微调 BERT 模型

我们将使用 BertForSequenceClassification 类来加载我们的模型，该模型已针对序列分类任务进行了预训练：

from transformers import BertForSequenceClassification, AdamW
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)

训练我们的模型涉及定义训练循环、指定损失函数、优化器和其他训练参数。以下是我们如何设置和运行训练循环。

from transformers import Trainer, TrainingArguments
training_args = TrainingArguments(    output_dir='./results',    evaluation_strategy="epoch",    learning_rate=2e-5,    per_device_train_batch_size=8,    per_device_eval_batch_size=8,    num_train_epochs=3,    weight_decay=0.01,)
trainer = Trainer(    model=model,    args=training_args,    train_dataset=train_dataset,    eval_dataset=valid_dataset,)
trainer.train()

评估模型涉及使用准确度、精确度、召回率和 F1 分数等指标检查其性能。这是我们评估模型的方法。

metrics = trainer.evaluate()print(metrics)

经过微调后，我们现在可以使用该模型对新数据进行预测。我们在验证集上使用我们的模型进行推理。

predictions = trainer.predict(valid_dataset)print(predictions)

总结

我们在本文学习了使用 Hugging Face Transformer 微调 BERT 进行情感分析，包括设置环境、数据集准备和标记化、DataLoader 创建、模型加载和训练，以及模型评估和实时模型预测这些步骤。

微调 BERT 进行情感分析在许多现实情况下都很有价值，例如分析客户反馈、跟踪社交媒体语气等等。通过使用不同的数据集和模型，您可以针对自己的自然语言处理项目进行扩展。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

2025-08-21

实测Qwen3-Coder，这就是目前最强的开源编程模型

2025-07-23

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

DeepSeek V3.1 Base / Instruct 发布

2025-08-20

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

阿里Qoder vs Trae vs Cursor：谁才是2025年程序猿的效率之王？

2025-09-07

精|知识探索新范式：深度研究Deep Research智能体全面综述，系统、方法与应用

2025-06-21

Qwen3-Coder开源：面向世界的智能编程引擎

2025-07-23

DeepSeekV3.1 提到的 UE8M0 FP8 Scale 是什么？下一代国产芯片设计？

2025-08-21

DeepSeek V3.1 测评

2025-08-19

大家都在问

阿里推出夸克医疗大模型：医考70%高分背后，RAG为何是“压舱石”？

2025-09-12

AI市场调查实战：如何让AI帮你搜全网特定规格的产品？

2025-09-11

Embedding-审核场景下都可以在哪里应用？

2025-09-11

您应该为您的 RAG 系统使用哪种分块技术？

2025-09-10

关于多模态应用的几个疑问，以及多模态应该怎么应用于RAG？

2025-09-10

Dify Pre-release版本来了，Dify2.0时代不远了，看看有哪些进步？

2025-09-09

nano banana 文生图模型有哪些具体的应用场景？

2025-09-09

Claude Code：极简架构 + 万字提示词 = 最强开发者智能体？

2025-09-09

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB