我要投稿

文档表格结构识别技术与数据总结：兼看多模态表格理解基准设计及数据构建思路

发布日期：2024-06-16 13:24:11 浏览次数： 3723

作者：老刘说NLP

微信搜一搜，关注“老刘说NLP”

我们今天继续来看看文档智能领域的表格结构识别问题，通过一个工作整理进行论述。

另一个是多模态表格理解MMTab的设计以及数据构造方式【数据增强】，还推出了一个表格理解模型，其思路也很有趣，可以看看。

供大家一起参考并思考。

问题1：文档智能领域中的表格结构识别问题

在完成版式分析之后，如果识别文档元素是表格，那么则需要对表格进行处理。而表格结构识别又是其中的一个重点。

一般而言，表格处理分成三个部分：

TD任务，Table Detection，表格识别

TSR任务，Table Structure Recognition，表格结构识别

TCD任务，Table Content Recognition，表格内容识别

因此，我们有必要熟悉下表格结构识别的工作，可以参考：https://github.com/MathamPollard/awesome-table-structure-recognition。

其中，可以重点看看其中的两个综述：

《A Study on Reproducibility and Replicability of Table Structure Recognition Methods》，https://arxiv.org/pdf/2304.10439

《Deep Learning for Table Detection and Structure Recognition: A Survey》，https://dl.acm.org/doi/abs/10.1145/3657281

其中几个点可以看看。

一个是目前提供表格结构识别数据集的工作，主要有：

1、ICDAR2013，https://paperswithcode.com/dataset/icdar-2013，数据量156
2、SciTSR，https://github.com/Academic-Hammer/SciTSR，数据量15K；
3、TableBank，https://doc-analysis.github.io/tablebank-page/，数据量145K

4、PubTabNet，https://github.com/ibm-aur-nlp/PubTabNet，数据量1M+；
5、PubTables-1M，https://github.com/microsoft/table-transformer?tab=readme-ov-file，数据量1M+；

6、FinbTabNet，https://developer.ibm.com/exchanges/data/all/fintabnet/，数据量91596

7、WTW，https://github.com/wangwen-whu/WTW-Dataset，数据量14581；

8、SynthTabNet，https://github.com/IBM/SynthTabNet，数据量600K；

9、TabRecSet，https://github.com/MaxKinny/TabRecSet，数据量38177；

10、iFLYTAB，https://github.com/ZZR8066/SEMv2?tab=readme-ov-file，数据量12104

一个是当前近几年的一些代表性的模型工作，主要有：

1、《Improving Table Structure Recognition with Visual-Alignment Sequential Coordinate Modeling》，https://openaccess.thecvf.com/content/CVPR2023/papers/Huang_Improving_Table_Structure_Recognition_With_Visual-Alignment_Sequential_Coordinate_Modeling_CVPR_2023_paper.pdf

2、《LORE: Logical Location Regression Network for Table Structure Recognition》，https://ojs.aaai.org/index.php/AAAI/article/view/25402/25174

2、《Robust Table Detection and Structure Recognition from Heterogeneous Document Images》：https://www.sciencedirect.com/science/article/abs/pii/S0031320322004861

3、《Scene table structure recognition with segmentation collaboration and alignment》，https://www.sciencedirect.com/science/article/abs/pii/S0167865522003828?via%3Dihub

4、《TableVLM: Multi-modal Pre-training for Table Structure Recognition》，https://aclanthology.org/2023.acl-long.137/

5、《TableFormer: Table Structure Understanding with Transformers》：https://openaccess.thecvf.com/content/CVPR2022/papers/Nassar_TableFormer_Table_Structure_Understanding_With_Transformers_CVPR_2022_paper.pdf

6、《Split, Embed and Merge: An accurate table structure recognizer》：https://www.sciencedirect.com/science/article/abs/pii/S0031320322000462

7、《TSRFormer: Table Structure Recognition with Transformers》：https://dl.acm.org/doi/abs/10.1145/3503161.3548038

8、《UniTable: Towards a Unified Framework for Table Structure Recognition via Self-Supervised Pretraining》：https://arxiv.org/abs/2403.04822)

9、《Multi-Type-TD-TSR -- Extracting Tables from Document Images using a Multi-stage Pipeline for Table Detection and Table Structure Recognition: from OCR to Structured Table Representation》：https://link.springer.com/chapter/10.1007/978-3-030-87626-5_8, https://github.com/Psarpei/Multi-Type-TD-TSR

问题2：多模态表格理解MMTab的任务及数据设计思路

当然，当前，多模态表格理解也可看看一个工作，多模态表格理解：《Multimodal Table Understanding》，https://arxiv.org/pdf/2406.08100，代码放在：https://github.com/SpursGoZmy/Table-LLaVA，其提出的背景在于，以往的表格理解方法取得了巨大进展，包括基于大型语言模型（LLMs）的最近方法，但这些方法通常需要将给定的表格转换成某种文本序列（如Markdown或HTML）作为模型输入。

然而，在现实世界的一些场景中，获取高质量的文本表格表示可能比较困难，而表格图像则更容易获取。因此，如何直接使用直观的视觉信息来理解表格是一个关键且迫切的挑战。

因此，这个工作提出了多模态表格理解问题，并构建了一个名为MMTab的大规模数据集，涵盖了广泛的表格图像、指令和任任务，如下所示：

我们可以看其中几个点：

1、其数据构造的方式：

其中比较有趣的是做的数据增强方案：

其一，表格级别增强（Table-level augmentations）：现实世界的表格具有不同的结构和样式。为了使模型能够处理各种样式的表格，设计了脚本来渲染具有三种不同样式的表格图像：网页风格（Web-page，占比70.8%）、Excel风格（占比19.4%）和Markdown风格（占比9.8%）。还考虑细粒度的调整，如字体类型和单元格颜色。

其二，指令级别增强（Instruction-level augmentations）：用户对于同一任务的指令可能会有所不同。为了提高模型对这种变化的鲁棒性，作者使用GPT-4生成新的指令模板和关于JSON输出格式的描述，基于几个手动注释的示例进行少量样本（few-shot）学习。生成的指令模板如果包含语法错误或与原始任务偏离，将被过滤掉。

其三，任务级别增强（Task-level augmentations）：尽管收集的14个公共数据集突出了9个学术表格任务，这些任务需要基于表格的推理能力，但现有的多模态大型语言模型（MLLMs）是否真的理解基本的表格结构仍然是一个问题。为了进一步加强MLLMs对基本表格结构的理解能力，设计了6个表格结构理解任务，例如表格大小检测（TSD）任务。

除了上述策略，作者还将同一表格的单轮样本结合起来，构成了37K多轮对话样本。

2、其数据的具体统计，包括用于微调的数据集以及测试