微信扫码
添加专属顾问
我要投稿
在上一期文章中,我们详细介绍了使用 LabelMe 进行版面标注的安装、标注流程和数据导出方法。本期我们将聚焦于使用 PPOCRLabel 进行表格标注的三条“黄金规则”。遵循这些规则,可以确保生成高质量的训练数据集,为构建高精度的文档表格识别模型奠定坚实基础。掌握这些技巧,将帮助我们进一步提升垂直领域模型的表格识别精度。
PPOCRLabel全面介绍
PPOCRLabel是一款适用于OCR领域的半自动化图形标注工具,内置PP-OCR模型对数据自动标注和重新识别。使用Python3和PyQT5编写,支持矩形框标注、表格标注、不规则文本标注、关键信息标注模式,导出格式可直接用于PaddleOCR检测和识别模型的训练。
conda create --name=ppocrlabel python=3.10 conda activate ppocrlabel
.whl
安装包,更为便捷。对于开发者来说,从源码安装不仅能快速获取最新更新,还可以自由定制和优化代码,以满足特定业务需求。PPOCRLabel的灵活性使其适合各种 OCR 场景的标注任务,无论是基础用户还是高级开发者,都能找到适合的安装方式。pip3 install --upgrade pip# 如果您的机器是CPU,请运行以下命令安装python3 -m pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple
pip3 install PPOCRLabel # 安装# 选择标签模式来启动PPOCRLabel --lang ch# 启动【普通模式】,用于打【检测+识别】场景的标签
矩形标注:适用于标注简单的矩形区域,如常规标注、表格标注等。
多点标注:适用于标注不规则文本、关键信息标注等。
其中,不规则文本的重点应用是公章中的文字标注,应用场景广泛。
PPOCRLabel实际操作
接下来,我们将以表格标注为例,详细讲解如何使用 PPOCRLabel 标注表格训练数据,并介绍几个提升标注质量的黄金规则。表格标注是一项精细的工作,准确的标注是构建高质量训练数据的关键。通过遵循 PPOCRLabel 的最佳实践,用户可以确保标注的表格数据在训练时更加准确,进而提升模型的整体识别效果。
一、表格标注
表格标注针对表格的结构化提取,将图片中的表格转换为Excel格式,因此标注时需要配合外部软件打开Excel同时完成。在PPOCRLabel软件中完成表格中的文字信息标注(文字与位置)、在Excel文件中完成表格结构信息标注。
推荐的步骤为:
表格识别:打开表格图片后,点击软件右上角 “表格识别” 按钮,软件调用PP-Structure中的表格识别模型,自动为表格打标签,同时弹出Excel
更改标注结果:以表格中的单元格为单位增加标注框(即一个单元格内的文字都标记为一个框)。标注框上鼠标右键后点击 单元格重识别 可利用模型自动识别单元格内的文字。
注意:如果表格中存在空白单元格,同样需要使用一个标注框将其标出,使得单元格总数与图像中保持一致,红色框圈住的为补充的空白单元格。
调整单元格顺序:点击软件视图-显示框编号 打开标注框序号,在软件界面右侧拖动 识别结果 一栏下的所有结果,使得标注框编号按照从左到右,从上到下的顺序排列,按行依次标注。
标注表格结构:在外部Excel软件中,将存在文字的单元格标记为任意标识符(如 1 ),保证Excel中的单元格合并情况与原图相同即可(即不需要Excel中的单元格文字与图片中的文字完全相同)
导出JSON格式:关闭所有表格图像对应的Excel,点击 文件-导出表格标注,生成gt.txt标注文件。
3、Excel 文件用于调整表格结构,必须保持与原表格一致。保存前应删除多余的行或列,否则在训练时可能导致错误。
写在最后
声明:本文为 真聊技术 原创,转载请联系授权。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-09
不要盲目再使用DeepSeek R1和QWQ这些推理模型做RAG了
2025-03-07
r1-reasoning-rag:一种新的 RAG 思路
2025-03-05
提高企业 RAG 准确性的分步指南
2025-03-05
DeepSeek-R1 x Agentic RAG:构建带"深度思考"开关的知识研究助理|深度长文
2025-03-05
通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统
2025-03-05
本地部署DeepSeek R1 + Ollama + XRAG:三步搭建RAG系统,并解锁全流自动化评测
2025-03-05
Graph RAG 迎来记忆革命:“海马体”机制如何提升准确率?
2025-03-04
Windows 部署 DeepSeek 本地 RAG 保姆教程:低配秒变AI工作站,断网也能稳如老狗!
2024-09-04
2024-10-27
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-03-05
2025-03-03
2025-03-02
2025-02-28
2025-02-24
2025-02-23
2025-02-15
2025-02-12