我要投稿

打造自己的RAG解析大模型：(新技能)企业垂类数据标注(一)

发布日期：2024-11-08 20:40:38 浏览次数： 2199

作者：真聊技术

微信搜一搜，关注“真聊技术”

在上一篇文章中，我们以通用版面分析服务为例，展示了从模型发布到API集成的完整流程。如果你成功完成了这些步骤，值得庆祝！这不仅意味着你已成功安装PaddleX，还掌握了利用它发布OCR和目标检测等大模型服务的能力，这离创建属于你的RAG解析平台仅一步之遥。现在，你已经拥有百度飞桨提供的通用开源模型部署能力，可以满足一些基础需求。然而，要进一步满足企业的特定需求，还需要对行业数据进行标注，并利用这些数据集进行模型训练，从而打造适用于垂直领域的定制化模型。这种垂类模型能够深入挖掘企业特定场景的信息，更精确地服务于业务目标，最终带来更大的应用价值。

工欲善其事，必先利其器

正如古语所言：“工欲善其事，必先利其器。”想要高效、准确地标注优质的垂类数据集，选择一款合适的标注工具至关重要。在下文中，我将介绍几款开源标注工具，这些工具都经过我的亲身体验，适合处理不同的标注需求。我会详细讲解每款工具的主要功能、支持的标注类型，以及它们在特定场景中的优势，以帮助你找到最合适的标注工具，为高质量的数据集奠定坚实基础。

PPOCRLabelv2

PPOCRLabel 是一款专为 OCR 任务设计的半自动化图像标注工具，能够大大提高标注效率。它集成了 PP-OCR 模型，可自动标注文本区域并重新识别，帮助用户快速完成标注工作。该工具由 Python3 和 PyQT5 编写，导出的数据格式可直接用于 PaddleOCR 的模型训练。

支持标签图形：

矩形框
正方形框
多点框

支持的标注场景：

表格
版面
不规则文本
关键信息

数据导出格式：

COCO
Paddle Table格式
Json

启动后界面：

表格标注示意图：

开源地址：

https://github.com/PFCCLab/PPOCRLabel

Labelme

LabelMe 是一款为计算机视觉研究设计的图像标注工具，提供 Web 和 GUI 两种界面模式，满足不同场景需求。Web 界面支持多人协作标注，适合团队项目和分布式任务，便于数据共享和进度跟踪；而 GUI 界面更适合单人使用，提供直观的交互体验，非常适合经验丰富的独立标注者。

支持标签图形：

矩形框
正方形框
多点框

支持的标注场景：

表格
版面
不规则文本
关键信息

数据导出格式：

COCO
VOC

启动后界面：

实例分割示意图：

开源地址：

https://github.com/wkentaro/labelme

Label Studio

Label Studio 是一款功能丰富的开源数据标注工具，提供基于 Web 的界面，支持多人协作，适合团队在同一平台上管理多个项目和用户。它不仅支持多种数据类型（如文本、图像、音频、视频），还提供丰富的标注模板，能够满足从简单标注到复杂任务的需求。对于需要灵活处理多种数据类型的团队来说，Label Studio 提供了高效的解决方案，有助于提升标注工作流的规范性和效率。

支持标签图形：