我要投稿

聊聊大模型的微调适配实现命名实体识别任务

发布日期：2024-05-01 06:34:37 浏览次数： 3680

作者：阿郎小哥的随笔驿站

微信搜一搜，关注“阿郎小哥的随笔驿站”

概述

命名实体识别（Named Entity Recognition, NER）是自然语言处理（Natural Language Processing, NLP）中的一个基础任务。它旨在从文本中识别出具有特定意义的实体，以便于进一步的分析和管理；这些实体通常是名词或名词短语，并能指代真实世界的对象。这些对象可以是人名、地名、组织名、时间表达式、货币单位等实体对象。通过识别这些实体，可以为信息提取、信息检索、问答系统、文本分类、机器翻译等高级NLP任务提供支持。

★
这也是数据标注的范畴与解决方案。

命名实体识别与层次多标签分类的区别

其实应该说是，文本分类任务与命名实体识别任务的区别。层次多标签分类是文本分类的一个子类。我对这两者多少是有些疑惑的，有时候会搞混。

层次多标签分类（Hierarchical Multi-Label Classification，HMLC）和命名实体识别（Named Entity Recognition，NER）都是自然语言处理（NLP）中的任务，但它们的目标和应用场景有所不同。下面是它们之间的联系与区别。

联系

文本标注：两者都涉及到对文本进行标注。在NER中，每个词汇或词汇序列会被标注为某个实体类别或非实体；在HMLC中，文本（如文档、句子或段落）会被标注为多个类别，这些类别可能形成一个层次结构。
多标签特性：在HMLC中，一个文本可能同时属于多个类别，这与NER中一个实体可能由多个词汇组成的情况相似。
模型共享：在某些情况下，HMLC和NER任务可以使用共享的模型架构，例如，使用双向LSTM（Long Short-Term Memory）或Transformer等神经网络模型来捕捉文本的上下文信息。

区别

任务目标：NER的目标是从文本中识别出具有特定意义的实体，如人名、地名、组织名等，关注的是实体边界和类型的识别。而HMLC的目标是为文本分配一个或多个类别标签，这些标签可能形成一个层次结构，关注的是文本内容的分类。
标签结构：在NER中，标签通常是平面的，每个实体有一个明确的类型。而在HMLC中，标签可能有层次结构，即一个文本可以同时属于多个类别，这些类别之间可能有上下级关系。
输出形式：NER的输出通常是实体边界和类型的序列，例如，BIO（Begin, Inside, Outside）标注 scheme。而HMLC的输出是一个或多个类别标签，这些标签可能来自不同的层次。
应用场景：NER常用于信息提取、知识图谱构建、问答系统等场景，关注的是文本中的具体实体。HMLC则常用于文本分类、文档组织、推荐系统等场景，关注的是文本的整体内容和类别。
模型复杂度：由于HMLC需要处理类别之间的层次关系，其模型可能比NER的模型更加复杂，需要考虑如何有效地建模类别之间的层次结构。

总结来说，虽然HMLC和NER都涉及到文本的标注和多标签问题，但它们的任务目标、标签结构、输出形式和应用场景有所不同。NER更关注于实体的识别，而HMLC更关注于文本内容的分类。

标签/实体库

既然NER是一个实体识别的过程，那么实体的来源是什么？因此肯定需要一个实体库，也可以叫做标签库。

标签库的准备区分两个阶段：预训练阶段、微调阶段。

预训练阶段是定义默认的标签库。训练模型与输入文本的识别匹配，增强其泛化能力。

微调阶段是装载自定义词典来定制化实体识别结果。使其在某些领域更具有垂直性与准确性。

PaddleNLP的标签库相关文档：命名实体识别。

算法模型

现在的很多NLP任务，越来越倾向于深度学习/大模型来实现；尤其是大模型。大模型的泛化能力与通用能力可以应用在很多的领域来解决实际的问题；尤其是NLP领域的各个任务，毕竟大模型的自实现过程，与NLP就息息相关。

PaddleNLP支持两种模式的命名实体识别：精确模式、快速模式。这两种不同的模式，是通过不同的算法/模型来实现。

深度学习

快速模式：BiGRU+CRF；是通过深度学习算法实现的。官方架构图如下：

★
BiGRU（Bidirectional Gated Recurrent Unit）是一种基于循环神经网络（RNN）的变体，它结合了门控循环单元（GRU）和双向（Bidirectional）的特点。GRU是LSTM（Long Short-Term Memory）的一种简化版本，但仍然能够有效地捕捉序列数据中的长期依赖关系。BiGRU通过将数据同时输入两个方向相反的GRU网络，能够同时捕捉前向和后向的上下文信息。

★
条件随机场（Conditional Random Field，CRF）是一种用于序列数据标注的模型，它是一种无向图模型，常用于自然语言处理中的命名实体识别、词性标注、分词等任务。CRF的核心思想是在给定观测序列的情况下，通过学习一个条件概率分布，来预测序列中每个位置的标签。

其流程是：

输入采用 one-hot 方式表示，每个字以一个 id 表示
one-hot 序列通过字表，转换为实向量表示的字向量序列；
字向量序列作为双向 GRU 的输入，学习输入序列的特征表示，得到新的特性表示序列，我们堆叠了两层双向 GRU 以增加学习能力；
CRF 以 GRU 学习到的特征为输入，以标记序列为监督信号，实现序列标注

★
业界还有一种比较常见的方法：BERT + BiLSTM + CRF。BERT生成向量序列，对应这里的one-hot编码。BiLSTM处理向量序列；CRF处理输出序列的概率。

预训练模型

精确模式：Word-Tag；是基于微调模型Word-Tag实现的，该模型的基座模型是ERNIE-CTM模型。

ERNIE-CTM是适用于中文文本挖掘任务的预训练语言模型，拥有更全面的汉字字表集合，更优的中文文本挖掘任务表现；ERNIE-CTM的模型结构大体与BERT相同，都是双向transformer结构。其个层结构设计如下：

模型	embedding size	hidden size	hidden layers	vocab size
ERNIE-CTM-base	128	768	12	23000

对于预训练模型来说，其最大的优点之一是泛化能力比较强；而对于将其作为解决方案来看的话，最关注的点之一就是微调能力；可以说，预训练模型是否支持微调本质上是决定是否采用的标准之一。

WordTag模型使用ERNIE-CTM+CRF微调训练而成；WordTag（中文词类知识标注工具）是首个能够覆盖所有中文词汇的词类知识标注工具，旨在为中文文本解析提供全面、丰富的知识标注结果，可以应用于模板（挖掘模板、解析模板）生成与匹配、知识挖掘(新词发现、关系挖掘)等自然语言处理任务中，提升文本解析与挖掘精度；也可以作为中文文本特征生成器，为各类机器学习模型提供文本特征。

Word-Tag模型通过引入增量训练的方法支持用户自定义数据训练。其结构如下：