【文档智能】DLAFormer：端到端的解决版式分析、阅读顺序方法

发布日期：2024-07-01 06:44:07 浏览次数： 1538

前言

前面文章介绍到，文档智能中版式分析(DLA)（《【文档智能 & RAG】RAG增强之路：增强PDF解析并结构化技术路线方案及思路》）、阅读顺序（《【文档智能】符合人类阅读顺序的文档模型-LayoutReader及非官方权重开源》）都是文档的智能结构识别和解析中非常重要的部分。传统的pipline的形式，首先通过版式分析的方法识别出文档中各个信息区块的位置信息及类别信息，然后通过使用阅读顺序的方法，复原出原始文档中各个区块的阅读顺序。本文介绍一种端到端的解决文档版式分析、阅读顺序的方法-DLAFormer，DLAFormer通过将各种DLA子任务视为关系预测问题，并将这些关系预测标签整合到一个统一的标签空间中，允许使用统一的关系预测模块同时处理多个任务。该方法将所有这些子任务集成到一个单一的模型中。

一、概念

1.1 文档图像（版面）组成

文档版面通常包含以下元素信息：

文本区域：页眉、页脚、标题、段落、页码、脚注、图片标题、表格标题等
表格
公式
图片

1.2 信息区块间的关系类型

文档中存在多种逻辑关系，最常见的是阅读顺序关系。文章定义了三种不同类型的关系：

内部区域关系（Intra-region relationship）：在同一个文本区域内，所有相邻文本行之间建立内部区域关系。如果文本区域只包含一行文本，则该文本行的关系被指定为自引用。

内部区域关系
区域间关系（Inter-region relationship）：构建所有表现出逻辑联系的区域对之间的区域间关系。例如，两个相邻段落之间或一个表格与其相应的标题或脚注之间的关系。
逻辑角色关系（Logical role relationship）：定义了各种逻辑角色单元，包括标题、小节标题、段落等。由于每个文本区域都被分配了一个逻辑角色，因此在文本区域中的每行文本与其相应的逻辑角色单元之间建立逻辑角色关系。

1.3 问题转化

通过定义信息区块间的关系类型，将DLA的各个子任务（如：文本区域检测、区块分类和阅读顺序预测）转化为关系预测问题。这些不同的关系预测任务的标签被合并到一个统一的标签空间中，使得可以使用统一的模型同时处理这些任务。

二、模型架构

DLAFormer是一个基于Transformer的端到端方法，用于文档布局分析。它遵循DETR模型架构，包含以下几个主要组件：

Backbone网络：用于从文档图像中提取多尺度特征。
Transformer Encoder：处理输入特征并生成位置编码。
Transformer Decoder：使用参考框和类别标签来处理潜在的候选框。
统一关系预测头：用于同时处理多种关系预测任务。
粗到细检测头：用于精确识别文档图像中的图片目标。

2.1 Type-wise Query Selection

在传统的DETR及其变体中，解码器的查询通常是静态的嵌入向量，它们在训练过程中学习，但不包含来自编码器的多尺度特征。这可能导致解码器在处理特定图像时缺乏对特征的适应性。为了解决这个问题，DLAFormer提出了类型感知查询选择策略。该策略利用潜在的类别信息来初始化内容查询，从而使查询能够适应不同类型图形对象的视觉特征。

使用多类别分类器替代辅助检测头中的二分类器，以识别每个选定特征的类别。
初始化查询

位置查询：使用预测的参考框来初始化位置查询。这通常通过将参考框应用于正弦位置编码来实现。
内容查询：根据预测的类别，为每个查询选择相应的特征，这些特征是可学习的，并且与类别相关联。这样，每个查询的内容向量就会根据其类别进行初始化，增强了查询对特定类别特征的捕捉能力。

在DLAFormer中，类型感知查询选择策略通过一个辅助的检测头来实现，该检测头在训练过程中与主模型一起优化。通过这种方式，模型能够学习如何根据编码器特征的类别信息来初始化解码器查询，进而提高模型对文档布局的理解和分析能力。

2.2 Type-wise Query Initialization Module

该模块的目的是标准化不同查询之间的逻辑关系建模，确保解码器输入的统一性。通过为每种类型的查询分配特定的可学习特征来增强模型对不同区域特征的适应性。接收以下三个组件作为输入：

图像目标检测的候选框和类别。
提取的文本行的边界框。
预定义的逻辑角色类型。

该模块为每种类型的查询分配了可学习的特征，并根据类别选择相应的特征来初始化内容查询。

2.3 Unified Relation Prediction Head

统一关系预测头的主要目标是同时处理多种类型的关系预测任务，包括内部区域关系、区域间关系和逻辑角色关系。这种统一处理方式有助于提高模型的效率和效果。关系预测头包含两个模块：

关系预测模块:

该模块计算文本行/区块查询与逻辑角色查询之间的逻辑关系得分。使用两个全连接层（和）来映射查询的特征，并通过点积操作计算关系得分。

文本行查询：文档中的文本行。
区块查询：文档中的图形对象，如表格、图表等。
逻辑角色查询：文档中的逻辑结构单元，如标题、段落等。

关系分类模块：使用BiLinear分类器来计算不同关系类型上的概率分布。

三、实验

3.1 版式分析

3.2 阅读顺序

总结

DLAFormer的方法挺有趣的，将多个子任务集成到单一模型中，通过统一的关系预测框架来解决文档版式分析和阅读顺序的问题。

参考文献

DLAFormer: An End-to-End Transformer For Document Layout Analysis，https://arxiv.org/abs/2405.11757

【文档智能 & LLM】LayoutLLM：一种多模态文档布局模型和大模型结合的框架

【文档智能】再谈基于Transformer架构的文档智能理解方法论和相关数据集

【文档智能】多模态预训练模型及相关数据集汇总

【文档智能】：GeoLayoutLM：一种用于视觉信息提取（VIE）的多模态预训练模型

文档智能：ERNIE-Layout

【文档智能】符合人类阅读顺序的文档模型-LayoutReader及非官方权重开源

【文档智能】实践：基于Yolo三行代码极简的训练一个版式分析模型

【文档智能 & RAG】RAG增强之路-智能文档解析关键技术难点及PDF解析工具PDFlux

53AI，大模型落地应用首选服务商

定位：开箱即用的大模型落地应用平台

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

年轻人！来一起搞AI吗?

如果你看见AI对商业世界的变革，欢迎来和我们一起探索~

岗位：销售经理

查看详情

岗位：项目经理

查看详情

岗位：产品经理

查看详情

岗位：测试工程师

查看详情

160+中大型企业正在使用53AI

立即咨询申请演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

2024-04-24

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

实测：本地跑llama3:70B需要什么配置

2024-04-24

超简单在本地部署Llama3的方案

2024-04-23

“大数据+”医疗

2024-04-11

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

RAG系列04：使用ReRank进行重排序

2024-03-22

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

2024-03-29

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

2024-04-25

大家都在问

实测：开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何？

2024-07-02

研发AI产品过程中，没有自研的数据处理以及机器学习平台时，可以使用哪些平台？

2024-07-02

为什么很多人都放弃LangChain了？

2024-07-01

ChatGPT、Claude的数据分析能力已经到了何种水平？

2024-07-01

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

2024-07-01

AI大模型：开源还是闭源？

2024-06-30

langchain创始人分享：什么是Agent？

2024-06-30

【AIGC FREE】Agent能“思考”吗？

2024-06-30

企业大模型落地应用平台

全员+AI

业务+AI

AIx业务

大模型咨询

大模型定制

前言

一、概念

1.1 文档图像（版面）组成

1.2 信息区块间的关系类型

1.3 问题转化

二、模型架构

2.1 Type-wise Query Selection

2.2 Type-wise Query Initialization Module

2.3 Unified Relation Prediction Head

三、实验

3.1 版式分析

3.2 阅读顺序

总结

参考文献

往期相关

年轻人！来一起搞AI吗?

岗位：销售经理

岗位：项目经理

岗位：产品经理

岗位：测试工程师

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

最强 GPT 免费使用！GPT4O 开启多模态新时代！

实测：本地跑llama3:70B需要什么配置

超简单在本地部署Llama3的方案

“大数据+”医疗

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

RAG系列04：使用ReRank进行重排序

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

大家都在问

实测：开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何？

研发AI产品过程中，没有自研的数据处理以及机器学习平台时，可以使用哪些平台？

为什么很多人都放弃LangChain了？

ChatGPT、Claude的数据分析能力已经到了何种水平？

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

AI大模型：开源还是闭源？

langchain创始人分享：什么是Agent？

【AIGC FREE】Agent能“思考”吗？

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示