AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


表格数据合成—GOT_OCR数据合成
发布日期:2024-12-18 05:15:39 浏览次数: 1566 来源:简单的机器学习


这一节我们介绍一下大家都比较关心的表格数据是怎么合成的。

表格数据现状

我们在网上比较常见的数据集主要有以下几个:

  • PubTabNet:https://github.com/ibm-aur-nlp/PubTabNet

这个数据集主要是以英文为主,来自arxiv 上的表格数据。

  • 好未来表格识别竞赛数据集: https://ai.100tal.com/dataset

现在好像下载不到了

  • WTW中文场景表格数据集:https://github.com/wangwen-whu/WTW-Dataset

仅仅包含表格的单元格坐标信息,不包含文本信息,所以它不适合做端到端模型。

从上面看,我们发现PubTabNet 是个相对较适合做端到端的模型,它即有表格布局信息也包含单元格内部的文本信息,唯一的缺点它是英文的。那该怎么办呢?数据合成是一种不可避免的方案,不然人工标注是多么耗时耗力的过程啊。

在使用 PaddleOCR 的过程中,发现有个表格生成工具TableGeneration,它是用于生成格式各样的表格图片的。样例可以看它的代码库首页。我这里简单的列出它存在的缺点(仅个人观点啊):

  • 表格数据内容往往是没有意义的;
  • 和正式的表格数据差异很大,训练出来的模型迁移能力较欠缺;

它的优点也很明显:可以快速的生成大量的,不用人工标注的表格数据。

latex 表格数据合成

我们这里选择使用 latex 格式来表示表格,不在使用 html 格式来表达,主要 html 标记语言中有太多的 <table>、<tr>、<th>等标记符号了,太多的 token 会严重影响解码速度和训练效率了。

这里手把手教大家怎么来生成表格数据,如果大家觉得有用,欢迎点赞转发关注~~~。

第一步:检查环境

是否根据《环境准备-GOT_OCR数据合成》这一节,把需要的环境准备好?如果还没准备好,后面的内容就当理论看看就好,因为没有准备好的环境,你的图片将无法渲染出来的。

第二步:先验数据准备

我们需要准备一下 PubTabNet 英文数据,它的数据总量大约是 50w 条表格记录,那不出意外我们的目标是获得 50w 条中文表格数据。这个数据量还是相当可以的哦,啥都不说,先去下载数据集吧,数据下载方式是:

wget -O <YOUR_TARGET_DIR>/PubTabNet.tar.gz https://dax-cdn.cdn.appdomain.cloud/dax-pubtabnet/2.0.0/pubtabnet.tar.gz

第三步:数据处理

首先我们需要写个将 PubTabNet_2.0.0.jsonl中的每行表格表达转为html 格式。

from bs4 import BeautifulSoup as bs
from html import escape

def format_html(line):
    ''' Formats HTML code from tokenized annotation of img
    '''

    html_code = line['html']['structure']['tokens'].copy()
    to_insert = [i for i, tag in enumerate(html_code) if tag in ('<td>''>')]
    for i, cell in zip(to_insert[::-1], line['html']['cells'][::-1]):
        if cell['tokens']:
            cell = [escape(token) if len(token) == 1 else token for token in cell['tokens']]
            cell = ''.join(cell)
            html_code.insert(i + 1, cell)
    html_code = ''.join(html_code)
    html_code = '''
<table frame="hsides" rules="groups" width="100%%">
 %s
</table>'''
 % html_code

    # prettify the html
    soup = bs(html_code)
    html_code = soup.prettify()
    return html_code

上面的代码可以把如下的输入:

{"filename": "PMC4840965_004_00.png", "split": "train", "imgid": 0, "html": {"cells": [{"tokens": ["<b>", "V", "a", "r", "i", "a", "b", "l", "e", "</b>"], "bbox": [1, 4, 27, 13]}, {"tokens": ["<b>", "H", "a", "z", "a", "r", "d", " ", "r", "a", "t", "i", "o", "</b>"], "bbox": [219, 4, 260, 13]}, {"tokens": ["<b>", "9", "5", " ", "%", " ", "C", "I", "</b>"], "bbox": [336, 4, 363, 13]}, {"tokens": ["<b>", "<i>", "p", "</i>", " ", "v", "a", "l", "u", "e", "*", "</b>"], "bbox": [456, 4, 484, 13]}, {"tokens": ["A", "g", "e", " ", "(", "m", "e", "d", "i", "a", "n", ")"], "bbox": [1, 17, 46, 27]}, {"tokens": []}, {"tokens": []}, {"tokens": ["0", ".", "7", "1", "6"], "bbox": [456, 17, 475, 27]}, {"tokens": [" ", "≤", "6", "9"], "bbox": [8, 31, 23, 41]}, {"tokens": ["1", ".", "0", "0", "0"], "bbox": [219, 31, 238, 41]}, {"tokens": []}, {"tokens": []}, {"tokens": [" ", ">", "6", "9"], "bbox": [8, 45, 23, 55]}, {"tokens": ["0", ".", "8", "3", "9"], "bbox": [219, 45, 238, 55]}, {"tokens": ["0", ".", "3", "1", "0", "–", "2", ".", "2", "6", "8"], "bbox": [336, 45, 376, 55]}, {"tokens": []}, {"tokens": ["G", "e", "n", "d", "e", "r"], "bbox": [1, 59, 26, 69]}, {"tokens": []}, {"tokens": []}, {"tokens": ["0", ".", "1", "4", "2"], "bbox": [456, 59, 475, 69]}, {"tokens": [" ", "M", "a", "l", "e"], "bbox": [8, 73, 26, 83]}, {"tokens": ["1", ".", "0", "0", "0"], "bbox": [219, 73, 238, 83]}, {"tokens": []}, {"tokens": []}, {"tokens": [" ", "F", "e", "m", "a", "l", "e"], "bbox": [8, 87, 34, 97]}, {"tokens": ["0", ".", "4", "2", "6"], "bbox": [219, 87, 238, 97]}, {"tokens": ["0", ".", "1", "5", "2", "–", "1", ".", "1", "9", "0"], "bbox": [336, 87, 376, 97]}, {"tokens": []}, {"tokens": ["T", "y", "p", "e", " ", "o", "f", " ", "s", "u", "r", "g", "e", "r", "y"], "bbox": [1, 101, 52, 111]}, {"tokens": []}, {"tokens": []}, {"tokens": ["0", ".", "0", "1", "0"], "bbox": [456, 101, 475, 111]}, {"tokens": [" ", "L", "o", "w", " ", "a", "n", "t", "e", "r", "i", "o", "r", " ", "r", "e", "s", "e", "c", "t", "i", "o", "n"], "bbox": [8, 115, 82, 125]}, {"tokens": ["1", ".", "0", "0", "0"], "bbox": [219, 115, 238, 125]}, {"tokens": []}, {"tokens": []}, {"tokens": [" ", "A", "b", "d", "o", "m", "i", "n", "o", "p", "e", "r", "i", "n", "e", "a", "l", " ", "r", "e", "s", "e", "c", "t", "i", "o", "n"], "bbox": [8, 129, 101, 139]}, {"tokens": ["3", ".", "1", "4", "0"], "bbox": [219, 129, 238, 139]}, {"tokens": ["0", ".", "9", "1", "9", "–", "1", "0", ".", "7", "2", "5"], "bbox": [336, 129, 379, 139]}, {"tokens": []}, {"tokens": ["T", "u", "m", "o", "r", " ", "l", "o", "c", "a", "t", "i", "o", "n"], "bbox": [1, 143, 51, 153]}, {"tokens": []}, {"tokens": []}, {"tokens": ["0", ".", "7", "1", "0"], "bbox": [456, 143, 475, 153]}, {"tokens": [" ", "U", "p", "p", "e", "r", " ", "r", "e", "c", "t", "u", "m"], "bbox": [8, 157, 55, 167]}, {"tokens": ["1", ".", "0", "0", "0"], "bbox": [219, 157, 238, 167]}, {"tokens": []}, {"tokens": []}, {"tokens": [" ", "M", "i", "d", "d", "l", "e", " ", "r", "e", "c", "t", "u", "m"], "bbox": [8, 171, 58, 181]}, {"tokens": ["1", ".", "2", "6", "7"], "bbox": [219, 171, 238, 181]}, {"tokens": ["0", ".", "3", "8", "1", "–", "4", ".", "2", "1", "3"], "bbox": [336, 171, 376, 181]}, {"tokens": []}, {"tokens": [" ", "L", "o", "w", " ", "r", "e", "c", "t", "u", "m"], "bbox": [8, 185, 49, 195]}, {"tokens": ["1", ".", "7", "1", "6"], "bbox": [219, 185, 238, 195]}, {"tokens": ["0", ".", "4", "1", "9", "–", "7", ".", "0", "2", "6"], "bbox": [336, 185, 376, 195]}, {"tokens": []}, {"tokens": ["G", "r", "a", "d", "e", " ", "o", "f", " ", "d", "i", "f", "f", "e", "r", "e", "n", "t", "i", "a", "t", "i", "o", "n"], "bbox": [0, 199, 77, 209]}, {"tokens": []}, {"tokens": []}, {"tokens": ["0", ".", "9", "3", "6"], "bbox": [456, 199, 475, 209]}, {"tokens": [" ", "G", "1"], "bbox": [8, 213, 19, 223]}, {"tokens": ["1", ".", "0", "0", "0"], "bbox": [219, 213, 238, 223]}, {"tokens": []}, {"tokens": []}, {"tokens": [" ", "G", "2"], "bbox": [8, 227, 19, 237]}, {"tokens": ["1", ".", "9", "3", "3"], "bbox": [219, 227, 238, 237]}, {"tokens": ["0", ".", "4", "1", "6", "–", "3", ".", "4", "2", "3"], "bbox": [336, 227, 376, 237]}, {"tokens": []}, {"tokens": [" ", "G", "3"], "bbox": [8, 241, 19, 251]}, {"tokens": ["1", ".", "1", "1", "9"], "bbox": [219, 241, 238, 251]}, {"tokens": ["0", ".", "1", "3", "7", "–", "9", ".", "1", "3", "7"], "bbox": [336, 241, 376, 251]}, {"tokens": []}, {"tokens": ["H", "i", "s", "t", "o", "l", "o", "g", "i", "c", " ", "t", "y", "p", "e"], "bbox": [0, 255, 51, 265]}, {"tokens": []}, {"tokens": []}, {"tokens": ["0", ".", "2", "9", "9"], "bbox": [456, 255, 475, 265]}, {"tokens": [" ", "A", "d", "e", "n", "o", "c", "a", "r", "c", "i", "n", "o", "m", "a"], "bbox": [8, 269, 65, 279]}, {"tokens": ["1", ".", "0", "0", "0"], "bbox": [219, 269, 238, 279]}, {"tokens": []}, {"tokens": []}, {"tokens": [" ", "A", "d", "e", "n", "o", "c", "a", "r", "c", "i", "n", "o", "m", "a", " ", "w", "i", "t", "h", " ", "m", "u", "c", "i", "n", "o", "u", "s", " ", "f", "e", "a", "t", "u", "r", "e", "s"], "bbox": [8, 283, 142, 293]}, {"tokens": ["0", ".", "3", "8", "1"], "bbox": [219, 283, 238, 293]}, {"tokens": ["0", ".", "0", "9", "6", "–", "1", ".", "5", "1", "4"], "bbox": [336, 283, 376, 293]}, {"tokens": []}, {"tokens": ["D", "e", "p", "t", "h", " ", "o", "f", " ", "t", "u", "m", "o", "r", " ", "i", "n", "v", "a", "s", "i", "o", "n"], "bbox": [0, 297, 82, 307]}, {"tokens": []}, {"tokens": []}, {"tokens": ["0", ".", "9", "2", "5"], "bbox": [456, 297, 475, 307]}, {"tokens": [" ", "T", "3"], "bbox": [8, 311, 18, 321]}, {"tokens": ["1", ".", "0", "0", "0"], "bbox": [219, 311, 238, 321]}, {"tokens": []}, {"tokens": []}, {"tokens": [" ", "T", "4", "a"], "bbox": [8, 325, 22, 335]}, {"tokens": ["0", ".", "9", "1", "9"], "bbox": [219, 325, 238, 335]}, {"tokens": ["0", ".", "3", "1", "6", "–", "2", ".", "6", "7", "3"], "bbox": [336, 325, 376, 335]}, {"tokens": []}, {"tokens": [" ", "T", "4", "b"], "bbox": [8, 339, 22, 349]}, {"tokens": ["0", ".", "7", "4", "5"], "bbox": [219, 339, 238, 349]}, {"tokens": ["0", ".", "1", "7", "2", "–", "3", ".", "2", "2", "3"], "bbox": [336, 339, 376, 349]}, {"tokens": []}, {"tokens": ["T", "u", "m", "o", "r", " ", "s", "i", "z", "e"], "bbox": [0, 353, 37, 363]}, {"tokens": []}, {"tokens": []}, {"tokens": ["0", ".", "3", "2", "9"], "bbox": [456, 353, 475, 363]}, {"tokens": [" ", "≤", "4", " ", "c", "m"], "bbox": [8, 367, 32, 377]}, {"tokens": ["1", ".", "0", "0", "0"], "bbox": [219, 367, 238, 377]}, {"tokens": []}, {"tokens": []}, {"tokens": [" ", ">", "4", " ", "c", "m"], "bbox": [8, 381, 31, 391]}, {"tokens": ["0", ".", "5", "9", "4"], "bbox": [219, 381, 238, 391]}, {"tokens": ["0", ".", "2", "1", "4", "–", "1", ".", "6", "5", "1"], "bbox": [336, 381, 376, 391]}, {"tokens": []}], "structure": {"tokens": ["<thead>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "</thead>", "<tbody>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "<tr>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "<td>", "</td>", "</tr>", "</tbody>"]}}}

转为 html 格式:

<table frame="hsides" rules="groups" width="100%">
 <thead><tr><td><b>Variable</b></td><td><b>Hazard ratio</b></td><td><b>95 % CI</b></td><td><b><i>p</i> value*</b></td></tr></thead><tbody><tr><td>Age (median)</td><td></td><td></td><td>0.716</td></tr><tr><td> ≤69</td><td>1.000</td><td></td><td></td></tr><tr><td> &gt;69</td><td>0.839</td><td>0.310–2.268</td><td></td></tr><tr><td>Gender</td><td></td><td></td><td>0.142</td></tr><tr><td> Male</td><td>1.000</td><td></td><td></td></tr><tr><td> Female</td><td>0.426</td><td>0.152–1.190</td><td></td></tr><tr><td>Type of surgery</td><td></td><td></td><td>0.010</td></tr><tr><td> Low anterior resection</td><td>1.000</td><td></td><td></td></tr><tr><td> Abdominoperineal resection</td><td>3.140</td><td>0.919–10.725</td><td></td></tr><tr><td>Tumor location</td><td></td><td></td><td>0.710</td></tr><tr><td> Upper rectum</td><td>1.000</td><td></td><td></td></tr><tr><td> Middle rectum</td><td>1.267</td><td>0.381–4.213</td><td></td></tr><tr><td> Low rectum</td><td>1.716</td><td>0.419–7.026</td><td></td></tr><tr><td>Grade of differentiation</td><td></td><td></td><td>0.936</td></tr><tr><td> G1</td><td>1.000</td><td></td><td></td></tr><tr><td> G2</td><td>1.933</td><td>0.416–3.423</td><td></td></tr><tr><td> G3</td><td>1.119</td><td>0.137–9.137</td><td></td></tr><tr><td>Histologic type</td><td></td><td></td><td>0.299</td></tr><tr><td> Adenocarcinoma</td><td>1.000</td><td></td><td></td></tr><tr><td> Adenocarcinoma with mucinous features</td><td>0.381</td><td>0.096–1.514</td><td></td></tr><tr><td>Depth of tumor invasion</td><td></td><td></td><td>0.925</td></tr><tr><td> T3</td><td>1.000</td><td></td><td></td></tr><tr><td> T4a</td><td>0.919</td><td>0.316–2.673</td><td></td></tr><tr><td> T4b</td><td>0.745</td><td>0.172–3.223</td><td></td></tr><tr><td>Tumor size</td><td></td><td></td><td>0.329</td></tr><tr><td> ≤4 cm</td><td>1.000</td><td></td><td></td></tr><tr><td> &gt;4 cm</td><td>0.594</td><td>0.214–1.651</td><td></td></tr></tbody>
</table>

第四步:大模型 latex 格式数据获取

下面就是基于大模型来获取 latex 格式数据就好了,这里我们给出一个简单的提示词:

system_prompt = "你是一个乐于助人的智能助手,你可以根据用户的要求完成用户给定的任务。"
user_prompt = "请根据给定的html格式的表格,将其转化为latex格式的表格,下面是html格式的表格:
{html_table}"

我们使用上面的 html_table经过大模型(这里使用的是 Qwen2-72B 模型),我们可以得到下面的 latex 格式的数据:

\begin{tabular}{|l|l|l|l|}
\hline
\textbf{变量} & \textbf{风险比} & \textbf{95\% CI} & \textit{\textbf{p值*}} \\
\hline
年龄 (中位数) &&& 0.716 \\
\hline
\(\leq\)69 & 1.000 &&\\
\hline
\(\gt\)69 & 0.839 & 0.310–2.268 &\\
\hline
性别 &&& 0.142 \\
\hline
男性 & 1.000 &&\\
\hline
女性 & 0.426 & 0.152–1.190 &\\
\hline
手术类型 &&& 0.010 \\
\hline
低位前切除术 & 1.000 &&\\
\hline
腹会阴联合切除术 & 3.140 & 0.919–10.725 &\\
\hline
肿瘤位置 &&& 0.710 \\
\hline
上段直肠 & 1.000 &&\\
\hline
中段直肠 & 1.267 & 0.381–4.213 &\\
\hline
下段直肠 & 1.716 & 0.419–7.026 &\\
\hline
分化程度 &&& 0.936 \\
\hline
G1 & 1.000 &&\\
\hline
G2 & 1.933 & 0.416–3.423 &\\
\hline
G3 & 1.119 & 0.137–9.137 &\\
\hline
组织学类型 &&& 0.299 \\
\hline
腺癌 & 1.000 &&\\
\hline
粘液腺癌 & 0.381 & 0.096–1.514 &\\
\hline
肿瘤浸润深度 &&& 0.925 \\
\hline
T3 & 1.000 &&\\
\hline
T4a & 0.919 & 0.316–2.673 &\\
\hline
T4b & 0.745 & 0.172–3.223 &\\
\hline
肿瘤大小 &&& 0.329 \\
\hline
\(\leq\)4 cm & 1.000 &&\\
\hline
\(\gt\)4 cm & 0.594 & 0.214–1.651 &\\
\hline
\end{tabular}

然后我们把这个生成的 latex 放到 tex live 中进行渲染,可以得到如下表格数据:

注:发现没有,我们这里不仅获得了 latex 格式的文本,而且把英文的表格转为了中文的表格,是不是很秀啊!!!

总结

本篇文章主要介绍了表格的现状,以及怎么获取 latex 格式的表格数据,文中提供了简单的提示词,可以根据自己的需要修改提示词,从而满足不同场景的需要。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询