AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


RAG中文档表格解析的2个问题:如何自动化地生成表格标注数据及如何进行表示更合适?
发布日期:2024-05-11 12:44:33 浏览次数: 1897


今天是20224年5月11日,星期六,北京,天气晴。

本文继续来看RAG。

来谈谈文档相关的2个问题,一个是如何自动化地生成文档表格解析标注数据?一个是表格形式用什么,对于大模型会更适用?都是实际文档解析常见的问题。

供大家一起参考。

问题1:如何自动化地生成文档表格解析标注数据?

无论是端到端的表格解析,还是传统方案的表格解析,都依赖标注数据,但并不好造,人工标注太慢。

因此,我们总会想到一些开源的方案。

首先,从Publaynet版面分析数据集的自动生成、基于编辑转换方式的TableBank表格检测数据集自动生成,当然,这些数据都已经开源,可以直接使用。

我们这里来看一个基于随机组合方式得到TableGeneration表格识别训练数据自动生成方案。 TableGeneration是当前自动生成多样性表格识别训练数据的一个开源项目,其思想在于通过浏览器渲染生成表格图像,代码修改自论文《Rethinking Table Parsing using Graph Neural Networks》源代码。

对应的方案可以看:https://github.com/hassan-mahmood/TIES_DataGeneration https://github.com/WenmuZhou/TableGeneration

修改后支持更多参数可配置,如单元格类型,表格行列,合并单元格数量,并支持彩色单元格。以满足简单表格场景、彩色表格场景、清单长表格场景以及宽表换行表格场景等不同的需求。

首先,对于规范表格场景下的表格类型细分方面,分成border:全部边框、border_top:上横线框、border_bottom:下横线框、head_border_bottom:下横线框、no_border:无边框、border_right:右竖线框以及border_left:左竖线框共7小类的表格类型。

其次,基于随机组合方式的表格生成流程包括以下几步:

1)随机生成表格行列->2)随机生成表格合并单元格数量和合并的起始结束位置->3)对于每一个单元格随机生成文本并组合成html字符串->4)使用浏览器对html字符串进行渲染生成表格图片->5)浏览器截图获取表格图片->6)裁剪图片,只保留表格区域->7)保存PP-Structure标注格式

问题2:表格形式用什么,对于大模型会更适用?

在文档解析过程中,表格解析是个重要的内容,而将解析后的表格进行表示,可以使用markdown,latex,json等格式,但具体什么形式,大模型会更实用呢?

当然,我们需要拿到量化结论【当然,特定任务做测试是一种思路,结论仅供参考】。

读到一个工作《GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study》(https://arxiv.org/pdf/2305.13062),为了全面衡量GPT用于表格数据理解任务上的效果,该工作提出了一个全新的benchmark,并在此基础上验证了ChatGPT在各个子任务上的效果。

在具体任务设定上,分成2类:一个是区分出表格数据【从文本中定位出哪些内容表示的是表格数据】,解析表格数据【从各种类型,包括XML、CSV、XLSX等,中解析出表格数据的能力】,一个是搜索【根据值进行位置搜索/根据位置定位到单元格值)和检索(根据行列信息找到对应的值】,并在TabFact、HybridQA、SQA、Feverous、ToTTo上做了测试。

而在格式的测试上,比较了带有特定分隔符的自然语言(NL+Sep)和HTML、XML和JSON等标记语言的使用情况。

结果表明,即使“NL+Sep”也常用于制表下游任务,但如表中结果所示,使用标记语言,特别是HTML,比“NL+Sep”提高了6.76%。

而对于一些细分任务,各种格式下的精度如下所示:

总结

本文主要围绕表格数据的两个问题进行了总结,一个是如何自动化地生成文档表格解析标注数据?一个是表格形式用什么,对于大模型会更适用?都是实际文档解析常见的问题,里面提到的方案和论文,感兴趣的都可以看看。

参考文献

1、https://github.com/hassan-mahmood/TIES_DataGeneration https://github.com/WenmuZhou/TableGeneration

2、https://arxiv.org/pdf/2305.13062

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询