我要投稿

RAG中文档表格解析的2个问题：如何自动化地生成表格标注数据及如何进行表示更合适？

发布日期：2024-05-11 12:44:33 浏览次数： 2584 作者：老刘说NLP

今天是20224年5月11日，星期六，北京，天气晴。

本文继续来看RAG。

来谈谈文档相关的2个问题，一个是如何自动化地生成文档表格解析标注数据？一个是表格形式用什么，对于大模型会更适用？都是实际文档解析常见的问题。

供大家一起参考。

问题1:如何自动化地生成文档表格解析标注数据？

无论是端到端的表格解析，还是传统方案的表格解析，都依赖标注数据，但并不好造，人工标注太慢。

因此，我们总会想到一些开源的方案。

首先，从Publaynet版面分析数据集的自动生成、基于编辑转换方式的TableBank表格检测数据集自动生成，当然，这些数据都已经开源，可以直接使用。

我们这里来看一个基于随机组合方式得到TableGeneration表格识别训练数据自动生成方案。 TableGeneration是当前自动生成多样性表格识别训练数据的一个开源项目，其思想在于通过浏览器渲染生成表格图像，代码修改自论文《Rethinking Table Parsing using Graph Neural Networks》源代码。

对应的方案可以看：https://github.com/hassan-mahmood/TIES_DataGeneration https://github.com/WenmuZhou/TableGeneration

修改后支持更多参数可配置，如单元格类型，表格行列，合并单元格数量，并支持彩色单元格。以满足简单表格场景、彩色表格场景、清单长表格场景以及宽表换行表格场景等不同的需求。

首先，对于规范表格场景下的表格类型细分方面，分成border:全部边框、border_top：上横线框、border_bottom:下横线框、head_border_bottom:下横线框、no_border:无边框、border_right：右竖线框以及border_left:左竖线框共7小类的表格类型。

其次，基于随机组合方式的表格生成流程包括以下几步：

1）随机生成表格行列->2）随机生成表格合并单元格数量和合并的起始结束位置->3）对于每一个单元格随机生成文本并组合成html字符串->4）使用浏览器对html字符串进行渲染生成表格图片->5）浏览器截图获取表格图片->6）裁剪图片，只保留表格区域->7）保存PP-Structure标注格式

问题2:表格形式用什么，对于大模型会更适用？

在文档解析过程中，表格解析是个重要的内容，而将解析后的表格进行表示，可以使用markdown，latex，json等格式，但具体什么形式，大模型会更实用呢？

当然，我们需要拿到量化结论【当然，特定任务做测试是一种思路，结论仅供参考】。

读到一个工作《GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study》(https://arxiv.org/pdf/2305.13062)，为了全面衡量GPT用于表格数据理解任务上的效果，该工作提出了一个全新的benchmark，并在此基础上验证了ChatGPT在各个子任务上的效果。

在具体任务设定上，分成2类：一个是区分出表格数据【从文本中定位出哪些内容表示的是表格数据】，解析表格数据【从各种类型，包括XML、CSV、XLSX等，中解析出表格数据的能力】，一个是搜索【根据值进行位置搜索/根据位置定位到单元格值）和检索（根据行列信息找到对应的值】，并在TabFact、HybridQA、SQA、Feverous、ToTTo上做了测试。