微信扫码
与创始人交个朋友
我要投稿
今天是20224年5月11日,星期六,北京,天气晴。
本文继续来看RAG。
来谈谈文档相关的2个问题,一个是如何自动化地生成文档表格解析标注数据?一个是表格形式用什么,对于大模型会更适用?都是实际文档解析常见的问题。
供大家一起参考。
无论是端到端的表格解析,还是传统方案的表格解析,都依赖标注数据,但并不好造,人工标注太慢。
因此,我们总会想到一些开源的方案。
首先,从Publaynet版面分析数据集的自动生成、基于编辑转换方式的TableBank表格检测数据集自动生成,当然,这些数据都已经开源,可以直接使用。
我们这里来看一个基于随机组合方式得到TableGeneration表格识别训练数据自动生成方案。 TableGeneration是当前自动生成多样性表格识别训练数据的一个开源项目,其思想在于通过浏览器渲染生成表格图像,代码修改自论文《Rethinking Table Parsing using Graph Neural Networks》源代码。
对应的方案可以看:https://github.com/hassan-mahmood/TIES_DataGeneration https://github.com/WenmuZhou/TableGeneration
修改后支持更多参数可配置,如单元格类型,表格行列,合并单元格数量,并支持彩色单元格。以满足简单表格场景、彩色表格场景、清单长表格场景以及宽表换行表格场景等不同的需求。
首先,对于规范表格场景下的表格类型细分方面,分成border:全部边框、border_top:上横线框、border_bottom:下横线框、head_border_bottom:下横线框、no_border:无边框、border_right:右竖线框以及border_left:左竖线框共7小类的表格类型。
其次,基于随机组合方式的表格生成流程包括以下几步:
1)随机生成表格行列->2)随机生成表格合并单元格数量和合并的起始结束位置->3)对于每一个单元格随机生成文本并组合成html字符串->4)使用浏览器对html字符串进行渲染生成表格图片->5)浏览器截图获取表格图片->6)裁剪图片,只保留表格区域->7)保存PP-Structure标注格式
在文档解析过程中,表格解析是个重要的内容,而将解析后的表格进行表示,可以使用markdown,latex,json等格式,但具体什么形式,大模型会更实用呢?
当然,我们需要拿到量化结论【当然,特定任务做测试是一种思路,结论仅供参考】。
读到一个工作《GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study》(https://arxiv.org/pdf/2305.13062),为了全面衡量GPT用于表格数据理解任务上的效果,该工作提出了一个全新的benchmark,并在此基础上验证了ChatGPT在各个子任务上的效果。
在具体任务设定上,分成2类:一个是区分出表格数据【从文本中定位出哪些内容表示的是表格数据】,解析表格数据【从各种类型,包括XML、CSV、XLSX等,中解析出表格数据的能力】,一个是搜索【根据值进行位置搜索/根据位置定位到单元格值)和检索(根据行列信息找到对应的值】,并在TabFact、HybridQA、SQA、Feverous、ToTTo上做了测试。
而在格式的测试上,比较了带有特定分隔符的自然语言(NL+Sep)和HTML、XML和JSON等标记语言的使用情况。
结果表明,即使“NL+Sep”也常用于制表下游任务,但如表中结果所示,使用标记语言,特别是HTML,比“NL+Sep”提高了6.76%。
而对于一些细分任务,各种格式下的精度如下所示:
本文主要围绕表格数据的两个问题进行了总结,一个是如何自动化地生成文档表格解析标注数据?一个是表格形式用什么,对于大模型会更适用?都是实际文档解析常见的问题,里面提到的方案和论文,感兴趣的都可以看看。
1、https://github.com/hassan-mahmood/TIES_DataGeneration https://github.com/WenmuZhou/TableGeneration
2、https://arxiv.org/pdf/2305.13062
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19