微信扫码
添加专属顾问
我要投稿
命名实体识别(Named Entity Recognition, NER)是自然语言处理(Natural Language Processing, NLP)中的一个基础任务。它旨在从文本中识别出具有特定意义的实体,以便于进一步的分析和管理;这些实体通常是名词或名词短语,并能指代真实世界的对象。这些对象可以是人名、地名、组织名、时间表达式、货币单位等实体对象。通过识别这些实体,可以为信息提取、信息检索、问答系统、文本分类、机器翻译等高级NLP任务提供支持。
★这也是数据标注的范畴与解决方案。
其实应该说是,文本分类任务与命名实体识别任务的区别。层次多标签分类是文本分类的一个子类。我对这两者多少是有些疑惑的,有时候会搞混。
层次多标签分类(Hierarchical Multi-Label Classification,HMLC)和命名实体识别(Named Entity Recognition,NER)都是自然语言处理(NLP)中的任务,但它们的目标和应用场景有所不同。下面是它们之间的联系与区别。
总结来说,虽然HMLC和NER都涉及到文本的标注和多标签问题,但它们的任务目标、标签结构、输出形式和应用场景有所不同。NER更关注于实体的识别,而HMLC更关注于文本内容的分类。
既然NER是一个实体识别的过程,那么实体的来源是什么?因此肯定需要一个实体库,也可以叫做标签库。
标签库的准备区分两个阶段:预训练阶段、微调阶段。
预训练阶段是定义默认的标签库。训练模型与输入文本的识别匹配,增强其泛化能力。
微调阶段是装载自定义词典来定制化实体识别结果。使其在某些领域更具有垂直性与准确性。
PaddleNLP的标签库相关文档:命名实体识别。
现在的很多NLP任务,越来越倾向于深度学习/大模型来实现;尤其是大模型。大模型的泛化能力与通用能力可以应用在很多的领域来解决实际的问题;尤其是NLP领域的各个任务,毕竟大模型的自实现过程,与NLP就息息相关。
PaddleNLP支持两种模式的命名实体识别:精确模式、快速模式。这两种不同的模式,是通过不同的算法/模型来实现。
快速模式:BiGRU+CRF;是通过深度学习算法实现的。官方架构图如下:
★BiGRU(Bidirectional Gated Recurrent Unit)是一种基于循环神经网络(RNN)的变体,它结合了门控循环单元(GRU)和双向(Bidirectional)的特点。GRU是LSTM(Long Short-Term Memory)的一种简化版本,但仍然能够有效地捕捉序列数据中的长期依赖关系。BiGRU通过将数据同时输入两个方向相反的GRU网络,能够同时捕捉前向和后向的上下文信息。
★条件随机场(Conditional Random Field,CRF)是一种用于序列数据标注的模型,它是一种无向图模型,常用于自然语言处理中的命名实体识别、词性标注、分词等任务。CRF的核心思想是在给定观测序列的情况下,通过学习一个条件概率分布,来预测序列中每个位置的标签。
其流程是:
★业界还有一种比较常见的方法:BERT + BiLSTM + CRF。BERT生成向量序列,对应这里的one-hot编码。BiLSTM处理向量序列;CRF处理输出序列的概率。
精确模式:Word-Tag;是基于微调模型Word-Tag实现的,该模型的基座模型是ERNIE-CTM模型。
ERNIE-CTM是适用于中文文本挖掘任务的预训练语言模型,拥有更全面的汉字字表集合,更优的中文文本挖掘任务表现;ERNIE-CTM的模型结构大体与BERT相同,都是双向transformer结构。其个层结构设计如下:
模型 | embedding size | hidden size | hidden layers | vocab size |
---|---|---|---|---|
ERNIE-CTM-base | 128 | 768 | 12 | 23000 |
对于预训练模型来说,其最大的优点之一是泛化能力比较强;而对于将其作为解决方案来看的话,最关注的点之一就是微调能力;可以说,预训练模型是否支持微调本质上是决定是否采用的标准之一。
WordTag模型使用ERNIE-CTM+CRF微调训练而成;WordTag(中文词类知识标注工具)是首个能够覆盖所有中文词汇的词类知识标注工具,旨在为中文文本解析提供全面、丰富的知识标注结果,可以应用于模板(挖掘模板、解析模板)生成与匹配、知识挖掘(新词发现、关系挖掘)等自然语言处理任务中,提升文本解析与挖掘精度;也可以作为中文文本特征生成器,为各类机器学习模型提供文本特征。
Word-Tag模型通过引入增量训练的方法支持用户自定义数据训练。其结构如下:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-01
2025-01-01
2024-08-13
2025-02-04
2024-07-25
2024-04-25
2024-06-13
2024-09-23
2024-04-26
2024-08-21
2025-03-17
2025-03-16
2025-03-16
2025-03-16
2025-03-15
2025-03-15
2025-03-15
2025-03-15