我要投稿

金融领域NER大模型性能及视觉文档理解技术总结

发布日期：2025-01-23 08:35:15 浏览次数： 2105

作者：老刘说NLP

微信搜一搜，关注“老刘说NLP”

今天是2025年01月11日，星期六，北京，天气晴。

我们来看两个事，一个是视觉文档问答模型的技术总结，是文档多模态领域的一个总结，有几个关键议题。

另一个是金融领域实体识别任务的大模型性能，可以看看真实表现，从而得到一些建议。

专题化，体系化，会有更多深度思考。大家一起加油。

一、视觉文档理解技术总结

最近读到一个不错的总结工作，关于文档视觉问答模型，从架构上做了总结，很不错，推荐给大家。

视觉丰富文档（VRDs）结合了复杂信息，将文本与图形、图表和表格等视觉元素融合在一起，以有效传达详细内容。与传统的文本文档不同，VRDs有两个主要特征：与排版细节（例如字体、大小、样式、颜色）相关联的文本，以空间方式组织信息的布局，以及增强理解的视觉元素，如图表和图形。

而视觉丰富文档理解（VrDU）是计算机视觉与自然语言处理交叉领域迅速发展的领域，旨在解决感知（文档解析，文档内对象的识别与提取）以及解释（对文档特征进行诸如回答问题之类的分析任务），如下表所示，对当前的一个统计：

可以看到，目前PDF或PowerPoint文档上的问答 VrDU 数据集概览，总结文档特征（例如，平均每篇文档的页数、标记、标签页、图表数量）和问题特征（例如，需要跨页面或跨文档信息的问题的存在、无法回答的问题以及平均答案长度）。

《Survey on Question Answering over Visually Rich Documents: Methods, Challenges, and Trends》(https://arxiv.org/pdf/2501.02235)，总结了如何通过将视觉特征整合到LLMs中来增强视觉丰富文档理解（VrDU），即文档表示(探索结合文本、布局和视觉数据的编码方法或仅视觉方法，重点关注多页（MP）表示)；嵌入与大模型（LLMs）的整合(文档嵌入在何处以及如何整合）；高效训练这些VrDU模型(模态对齐的预训练方法)。

我们细分几个点来看看：

1、整合三种模态的模型怎么做？

一般来说涉及三种模态，文本+布局+视觉。处理三种模态（文本+布局+视觉）的VrDU模型有多种，如下：

其中：布局特征是围绕文本和结构元素（例如，表格）的边界框，文档内元素的位置和大小可以在粒度上有所不同，从单个标记到更大的块，如单元格、表格、图像或段落。这种布局信息可以通过三种方式在VrDU模型中表示，即通过位置嵌入、注意力偏差，或者直接在文本中作为特殊标记表示。可以通过特殊标记、位置嵌入或注意力偏差直接嵌入到文本中。

例如，Lyrics和ViTLP模型在文本标记中添加了<Bbox>和[LOC]标记。LayoutLM模型将每个标记的边界框坐标分别嵌入并求和。

视觉捕捉了文档页面的外观，包括其整体结构和整个文档的视觉上下文。视觉信息可以通过视觉编码器生成一组视觉“标记”（向量）。初始基于CNN，这些编码器已过渡到视觉变换器（ViT）。

局部模态对齐通过在文档的特定区域内的文本和视觉特征进行对齐来实现。全局模态对齐则通过连接文本和视觉特征来实现。

而

2、视觉单一模态编码VrDs如何做？

在架构变化上，从一开始的通过将CNN和ViT结合，或利用Swin Transformers等局部窗口机制来处理高分辨率图像。最近的方法通过去除冗余信息或使用无修改的ViT架构来处理分割图像。

后面也有多个ViTs处理分割图像，将高分辨率图像分割成子图像，每个子图像由独立的ViT处理。通过变换器层或低分辨率表示来保持子图像之间的连续性。

**3、如何编码多页文档 **

而在多页文档的编码中，为了处理长序列和高信息密度的问题，也有多种方案。

一个是检索增强生成（RAG），使用检索技术仅向VRDU解码器提供包含相关信息页面的表示，例如HiVT5和InstructDr模型；

一个是逐页表示，将文档逐页表示，每页使用独立的视觉编码器处理，然后将表示压缩并注入LLM，例如mPLUG-DocOwl2模型；

一个是长序列处理，使用递归记忆变换器（RMT）或稀疏注意力技术（如全局-局部或块状注意力）来处理多页文档，例如RM-T5和Arctic-TILT模型。

3、如何将VRD特征注入LLMs？

此外，将VRD特征注入LLMs时，自注意力和交叉注意力方法各自存在优缺点，自注意力方法在计算效率上具有优势，而交叉注意力方法在利用LLMs能力方面更有效，但需要更多的计算资源。

其中，自注意力方法将VRD表示前置到提示中，允许模型在自注意力层中同时处理VRD特征和提示。这种方法通过线性投影或卷积来调整VrD特征的空间，不需要引入许多新参数，计算效率较高。但是考虑了文本提示的原始标记，没有区分它们的角色或重要性，可能导致次优的性能。

交叉注意力方法，使用VrDU编码器隐藏状态来条件化冻结的LLM，通过插入交叉注意力层来实现。这种方法允许更长的序列处理，这允许查询/提示标记与VRD特征显式交互，有效利用LLMs的能力。适用于处理长序列和高分辨率表示。但是引入了大量新参数，显著增加了模型的整体大小，可能影响计算效率和训练成本。

4、不同的方案效果如何？

这个很有趣，使用了多个VRDU数据集，包括VisualMRC 2021、DocVQA 2021a、InfographicVQA 2021b、TAT-DQA 2022、MP-DocVQA 2023b、DUDE 2023、SlideVQA 2023、MMLongBenchDoc 2024c、M3DocVQA 2024、M-LongDoc 2024和MMDocBench 2024，评估指标包括平均归一化Levenshtein相似度（ANLS）

在多模态表示的效果上，最大化使用位置信息的模型表现最佳，表明文本和布局信息本身可能足以回答问题，即使对于复杂的图表和图形，只要布局得到优化考虑；

在纯视觉方法上，使用预训练的ViT处理高分辨率图像切片的方法显示出一定的潜力，能够在保持必要布局和语义细节的同时实现紧凑高效的表示；

在多页文档处理上，基于稀疏注意力机制的方法（如全局-局部或块状注意力）在跨页推理任务中表现出色，代表了多页文档理解的未来方向。

二、金融领域实体识别任务的大模型性能

前沿LLMs在金融领域NER任务中的能力，可以看看对不同提示类型的效果及其局限，重要的是，传统监督小模型这块的一些性能差异。

看一个工作《**Financial Named Entity Recognition: How Far Can LLM Go?**》(https://arxiv.org/pdf/2501.02237)，核心几个点，使用FiNER-ORD数据集作为基准，包含201篇金融新闻文章，手动标注了ORG、LOC和PER三种实体类型。

评估了三种前沿LLMs及其轻量级版本：GPT-4o、LLaMA-3.1和Gemini-1.5，以及两个基于transformer的模型（BERT和RoBERTa）。

设计了三种提示方法：直接提示、上下文学习和链式推理（CoT）提示。直接提示首先给出NER任务的指令；