AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


打造自己的RAG解析大模型:表格数据标注的三条黄金规则
发布日期:2024-11-15 05:38:40 浏览次数: 1525 来源:真聊技术


关注真聊技术,我们一起探究AI奥秘!



最近一直忙于交付 RAG 应用系统的开发和实施,因此没能抽出时间更新公众号内容,还请大家谅解!

在上一期文章中,我们详细介绍了使用 LabelMe 进行版面标注的安装、标注流程和数据导出方法。本期我们将聚焦于使用 PPOCRLabel 进行表格标注的三条“黄金规则”。遵循这些规则,可以确保生成高质量的训练数据集,为构建高精度的文档表格识别模型奠定坚实基础。掌握这些技巧,将帮助我们进一步提升垂直领域模型的表格识别精度。

PPOCRLabel全面介绍

PPOCRLabel是一款适用于OCR领域的半自动化图形标注工具,内置PP-OCR模型对数据自动标注和重新识别。使用Python3和PyQT5编写,支持矩形框标注、表格标注、不规则文本标注、关键信息标注模式,导出格式可直接用于PaddleOCR检测和识别模型的训练。

一、PPOCRLabel的安装与使用

  1. 建立Anaconda环境:首先创建一个新的Python环境,然后激活该环境。具体命令如下:
conda create --name=ppocrlabel python=3.10  conda activate ppocrlabel  
2. PPOCRLabel的安装方式有两种:如果希望进行二次开发或使用最新版本,可以直接从其 GitHub 仓库克隆代码进行安装;如果只需要标准功能,也可以使用官方提供的 .whl 安装包,更为便捷。对于开发者来说,从源码安装不仅能快速获取最新更新,还可以自由定制和优化代码,以满足特定业务需求。PPOCRLabel的灵活性使其适合各种 OCR 场景的标注任务,无论是基础用户还是高级开发者,都能找到适合的安装方式。
具体步骤为:
  • 安装PaddlePaddle

pip3 install --upgrade pip# 如果您的机器是CPU,请运行以下命令安装python3 -m pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple
  • 通过whl包安装与运行

pip3 install PPOCRLabel  # 安装# 选择标签模式来启动PPOCRLabel --lang ch  # 启动【普通模式】,用于打【检测+识别】场景的标签

启动后,图形界面如下。

二、PPOCRLabel的功能与标注方式

PPOCRLabel支持多种标注方式,包括但不限于矩形标注、多点标注。这些标注方式可以满足不同应用场景的需求。

  1. 矩形标注:适用于标注简单的矩形区域,如常规标注、表格标注等。

  2. 多点标注:适用于标注不规则文本、关键信息标注等。

其中,不规则文本的重点应用是公章中的文字标注,应用场景广泛。

三、标注结果的导出与格式转换

PPOCRLabel 支持多种格式的输出,主要包括 Paddle 格式的表格数据、关键信息标注、文本检测和文本识别格式。

PPOCRLabel实际操作

接下来,我们将以表格标注为例,详细讲解如何使用 PPOCRLabel 标注表格训练数据,并介绍几个提升标注质量的黄金规则。表格标注是一项精细的工作,准确的标注是构建高质量训练数据的关键。通过遵循 PPOCRLabel 的最佳实践,用户可以确保标注的表格数据在训练时更加准确,进而提升模型的整体识别效果。

一、表格标注

表格标注针对表格的结构化提取,将图片中的表格转换为Excel格式,因此标注时需要配合外部软件打开Excel同时完成。在PPOCRLabel软件中完成表格中的文字信息标注(文字与位置)、在Excel文件中完成表格结构信息标注。

推荐的步骤为:

  1. 表格识别:打开表格图片后,点击软件右上角 “表格识别” 按钮,软件调用PP-Structure中的表格识别模型,自动为表格打标签,同时弹出Excel


  2. 更改标注结果:以表格中的单元格为单位增加标注框(即一个单元格内的文字都标记为一个框)。标注框上鼠标右键后点击 单元格重识别 可利用模型自动识别单元格内的文字。

    注意:如果表格中存在空白单元格,同样需要使用一个标注框将其标出,使得单元格总数与图像中保持一致,红色框圈住的为补充的空白单元格。

  3. 调整单元格顺序:点击软件视图-显示框编号 打开标注框序号,在软件界面右侧拖动 识别结果 一栏下的所有结果,使得标注框编号按照从左到右,从上到下的顺序排列,按行依次标注。

  4. 标注表格结构:在外部Excel软件中,将存在文字的单元格标记为任意标识符(如 1 ),保证Excel中的单元格合并情况与原图相同即可(即不需要Excel中的单元格文字与图片中的文字完全相同)

  5. 导出JSON格式:关闭所有表格图像对应的Excel,点击 文件-导出表格标注,生成gt.txt标注文件。

二、表格标注黄金规则
1、只需标注表格中包含文字的行和列,即使行列间存在较大空隙,也无需添加空白行。
2、单元格标注顺序需按照以下示例图片所示的顺序进行,确保一致性。

3、Excel 文件用于调整表格结构,必须保持与原表格一致。保存前应删除多余的行或列,否则在训练时可能导致错误。

写在最后

今天我们详细讲解了如何使用 PPOCRLabel 进行表格标注,并着重介绍了三条提升标注质量的黄金规则。表格标注虽然是一项耗时费力的工作,但它在构建精准的文档识别模型中至关重要。然而,表格识别模型的训练并非一蹴而就,需要多次尝试、不断优化数据集和训练参数,以逐步提升识别效果。尽管过程艰辛,但只要遵循最佳实践并坚持优化,最终能构建出符合业务需求的高质量模型,为后续应用奠定坚实基础。
备注:训练效果与训练集的数据量、标注质量以及训练轮数密切相关。更高质量和更丰富的标注数据有助于模型的学习,而适当增加训练轮数则可以进一步提升模型的准确性。

声明:本文为 真聊技术 原创,转载请联系授权。



看完本文有收获?请转发分享给更多人

关注「真聊技术」,提升综合技能



真聊技术

Base在AIGC应用、RAG、模型训练、LLM微调、微服务、领域驱动设计。



分享、点赞和在看就是最大的支持❤️


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询