微信扫码
与创始人交个朋友
我要投稿
在上一期文章中,我们详细介绍了使用 LabelMe 进行版面标注的安装、标注流程和数据导出方法。本期我们将聚焦于使用 PPOCRLabel 进行表格标注的三条“黄金规则”。遵循这些规则,可以确保生成高质量的训练数据集,为构建高精度的文档表格识别模型奠定坚实基础。掌握这些技巧,将帮助我们进一步提升垂直领域模型的表格识别精度。
PPOCRLabel全面介绍
PPOCRLabel是一款适用于OCR领域的半自动化图形标注工具,内置PP-OCR模型对数据自动标注和重新识别。使用Python3和PyQT5编写,支持矩形框标注、表格标注、不规则文本标注、关键信息标注模式,导出格式可直接用于PaddleOCR检测和识别模型的训练。
conda create --name=ppocrlabel python=3.10 conda activate ppocrlabel
.whl
安装包,更为便捷。对于开发者来说,从源码安装不仅能快速获取最新更新,还可以自由定制和优化代码,以满足特定业务需求。PPOCRLabel的灵活性使其适合各种 OCR 场景的标注任务,无论是基础用户还是高级开发者,都能找到适合的安装方式。pip3 install --upgrade pip# 如果您的机器是CPU,请运行以下命令安装python3 -m pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple
pip3 install PPOCRLabel # 安装# 选择标签模式来启动PPOCRLabel --lang ch# 启动【普通模式】,用于打【检测+识别】场景的标签
矩形标注:适用于标注简单的矩形区域,如常规标注、表格标注等。
多点标注:适用于标注不规则文本、关键信息标注等。
其中,不规则文本的重点应用是公章中的文字标注,应用场景广泛。
PPOCRLabel实际操作
接下来,我们将以表格标注为例,详细讲解如何使用 PPOCRLabel 标注表格训练数据,并介绍几个提升标注质量的黄金规则。表格标注是一项精细的工作,准确的标注是构建高质量训练数据的关键。通过遵循 PPOCRLabel 的最佳实践,用户可以确保标注的表格数据在训练时更加准确,进而提升模型的整体识别效果。
一、表格标注
表格标注针对表格的结构化提取,将图片中的表格转换为Excel格式,因此标注时需要配合外部软件打开Excel同时完成。在PPOCRLabel软件中完成表格中的文字信息标注(文字与位置)、在Excel文件中完成表格结构信息标注。
推荐的步骤为:
表格识别:打开表格图片后,点击软件右上角 “表格识别” 按钮,软件调用PP-Structure中的表格识别模型,自动为表格打标签,同时弹出Excel
更改标注结果:以表格中的单元格为单位增加标注框(即一个单元格内的文字都标记为一个框)。标注框上鼠标右键后点击 单元格重识别 可利用模型自动识别单元格内的文字。
注意:如果表格中存在空白单元格,同样需要使用一个标注框将其标出,使得单元格总数与图像中保持一致,红色框圈住的为补充的空白单元格。
调整单元格顺序:点击软件视图-显示框编号 打开标注框序号,在软件界面右侧拖动 识别结果 一栏下的所有结果,使得标注框编号按照从左到右,从上到下的顺序排列,按行依次标注。
标注表格结构:在外部Excel软件中,将存在文字的单元格标记为任意标识符(如 1 ),保证Excel中的单元格合并情况与原图相同即可(即不需要Excel中的单元格文字与图片中的文字完全相同)
导出JSON格式:关闭所有表格图像对应的Excel,点击 文件-导出表格标注,生成gt.txt标注文件。
3、Excel 文件用于调整表格结构,必须保持与原表格一致。保存前应删除多余的行或列,否则在训练时可能导致错误。
写在最后
声明:本文为 真聊技术 原创,转载请联系授权。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-24
除了混合搜索,RAG 还需要哪些基础设施能力?
2024-12-24
万字长文梳理 2024 年的 RAG
2024-12-24
面向医疗场景的大模型 RAG 检索增强解决方案
2024-12-23
一文详谈20多种RAG优化方法
2024-12-23
深入RAG工作流:检索生成的最佳实践
2024-12-23
o1 pro “碾压式”洞察:世界顶尖免疫学专家被机器深度分析“惊醒”
2024-12-23
使用 Lang Chain 和 Lang Graph 构建多代理 RAG :分步指南 + Gemma 2
2024-12-23
RAG评估框架:RAG Triad框架及其实战
2024-07-18
2024-05-05
2024-06-20
2024-09-04
2024-05-19
2024-07-09
2024-07-09
2024-07-07
2024-07-07
2024-06-13