我要投稿

【文档智能】DLAFormer：端到端的解决版式分析、阅读顺序方法

发布日期：2024-07-01 06:44:07 浏览次数： 2883

作者：大模型自然语言处理

微信搜一搜，关注“大模型自然语言处理”

前言

前面文章介绍到，文档智能中版式分析(DLA)（《【文档智能 & RAG】RAG增强之路：增强PDF解析并结构化技术路线方案及思路》）、阅读顺序（《【文档智能】符合人类阅读顺序的文档模型-LayoutReader及非官方权重开源》）都是文档的智能结构识别和解析中非常重要的部分。传统的pipline的形式，首先通过版式分析的方法识别出文档中各个信息区块的位置信息及类别信息，然后通过使用阅读顺序的方法，复原出原始文档中各个区块的阅读顺序。本文介绍一种端到端的解决文档版式分析、阅读顺序的方法-DLAFormer，DLAFormer通过将各种DLA子任务视为关系预测问题，并将这些关系预测标签整合到一个统一的标签空间中，允许使用统一的关系预测模块同时处理多个任务。该方法将所有这些子任务集成到一个单一的模型中。

一、概念

1.1 文档图像（版面）组成

文档版面通常包含以下元素信息：

文本区域：页眉、页脚、标题、段落、页码、脚注、图片标题、表格标题等
表格
公式
图片

1.2 信息区块间的关系类型

文档中存在多种逻辑关系，最常见的是阅读顺序关系。文章定义了三种不同类型的关系：

内部区域关系（Intra-region relationship）：在同一个文本区域内，所有相邻文本行之间建立内部区域关系。如果文本区域只包含一行文本，则该文本行的关系被指定为自引用。
区域间关系（Inter-region relationship）：构建所有表现出逻辑联系的区域对之间的区域间关系。例如，两个相邻段落之间或一个表格与其相应的标题或脚注之间的关系。
逻辑角色关系（Logical role relationship）：定义了各种逻辑角色单元，包括标题、小节标题、段落等。由于每个文本区域都被分配了一个逻辑角色，因此在文本区域中的每行文本与其相应的逻辑角色单元之间建立逻辑角色关系。

1.3 问题转化

通过定义信息区块间的关系类型，将DLA的各个子任务（如：文本区域检测、区块分类和阅读顺序预测）转化为关系预测问题。这些不同的关系预测任务的标签被合并到一个统一的标签空间中，使得可以使用统一的模型同时处理这些任务。

二、模型架构

DLAFormer是一个基于Transformer的端到端方法，用于文档布局分析。它遵循DETR模型架构，包含以下几个主要组件：

Backbone网络：用于从文档图像中提取多尺度特征。
Transformer Encoder：处理输入特征并生成位置编码。
Transformer Decoder：使用参考框和类别标签来处理潜在的候选框。
统一关系预测头：用于同时处理多种关系预测任务。
粗到细检测头：用于精确识别文档图像中的图片目标。

2.1 Type-wise Query Selection

在传统的DETR及其变体中，解码器的查询通常是静态的嵌入向量，它们在训练过程中学习，但不包含来自编码器的多尺度特征。这可能导致解码器在处理特定图像时缺乏对特征的适应性。为了解决这个问题，DLAFormer提出了类型感知查询选择策略。该策略利用潜在的类别信息来初始化内容查询，从而使查询能够适应不同类型图形对象的视觉特征。