微信扫码
与创始人交个朋友
我要投稿
关注真聊技术,我们一起探究AI奥秘!
在上一篇文章中,我们以通用版面分析服务为例,展示了从模型发布到API集成的完整流程。如果你成功完成了这些步骤,值得庆祝!这不仅意味着你已成功安装PaddleX,还掌握了利用它发布OCR和目标检测等大模型服务的能力,这离创建属于你的RAG解析平台仅一步之遥。现在,你已经拥有百度飞桨提供的通用开源模型部署能力,可以满足一些基础需求。然而,要进一步满足企业的特定需求,还需要对行业数据进行标注,并利用这些数据集进行模型训练,从而打造适用于垂直领域的定制化模型。这种垂类模型能够深入挖掘企业特定场景的信息,更精确地服务于业务目标,最终带来更大的应用价值。
工欲善其事,必先利其器
正如古语所言:“工欲善其事,必先利其器。”想要高效、准确地标注优质的垂类数据集,选择一款合适的标注工具至关重要。在下文中,我将介绍几款开源标注工具,这些工具都经过我的亲身体验,适合处理不同的标注需求。我会详细讲解每款工具的主要功能、支持的标注类型,以及它们在特定场景中的优势,以帮助你找到最合适的标注工具,为高质量的数据集奠定坚实基础。
多点框
支持的标注场景:
表格
版面
不规则文本
关键信息
Json
启动后界面:
表格标注示意图:
开源地址:
https://github.com/PFCCLab/PPOCRLabel
Labelme
LabelMe 是一款为计算机视觉研究设计的图像标注工具,提供 Web 和 GUI 两种界面模式,满足不同场景需求。Web 界面支持多人协作标注,适合团队项目和分布式任务,便于数据共享和进度跟踪;而 GUI 界面更适合单人使用,提供直观的交互体验,非常适合经验丰富的独立标注者。
多点框
支持的标注场景:
表格
版面
不规则文本
关键信息
VOC
启动后界面:
实例分割示意图:
开源地址:
https://github.com/wkentaro/labelme
Label Studio
Label Studio 是一款功能丰富的开源数据标注工具,提供基于 Web 的界面,支持多人协作,适合团队在同一平台上管理多个项目和用户。它不仅支持多种数据类型(如文本、图像、音频、视频),还提供丰富的标注模板,能够满足从简单标注到复杂任务的需求。对于需要灵活处理多种数据类型的团队来说,Label Studio 提供了高效的解决方案,有助于提升标注工作流的规范性和效率。
多点框
支持的标注场景:
表格
版面
不规则文本
关键信息
VOC
启动界面:
示意图:
项目管理示意图(上图)
数据管理器(上图)
整体说明(上图)
Label Studio支持多账号管理,支持分组标注,可以根据自己的项目来建立标注分组,多人同时标注。
开源地址:
https://github.com/HumanSignal/label-studio/
展望
声明:本文为 真聊技术 原创,转载请联系授权。
看完本文有收获?请转发分享给更多人
关注「真聊技术」,提升综合技能
真聊技术
分享、点赞和在看就是最大的支持❤️
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-08
AI改变工作:一天内打造专属于你自己的RAG
2024-11-08
一篇大模型RAG最新综述
2024-11-08
微软GraphRAG 0.4.0&DRIFT图推理搜索更新
2024-11-08
小模型在RAG(Retrieval-Augmented Generation)系统中的应用:提升效率与可扩展性的新路径
2024-11-08
RAG评估:RAGChecker重磅发布!精准诊断RAG系统的全新细粒度框架!
2024-11-07
蚂蚁KAG框架核心功能研读
2024-11-07
为什么它是从PDF中解析数据的最佳工具?PDF文件解析新选择,构建LLM 大模型数据基础
2024-11-06
RAG vs ICL:AI大模型的记忆术和临场发挥,谁才是最强辅助?
2024-07-18
2024-07-09
2024-07-09
2024-05-05
2024-05-19
2024-07-07
2024-06-20
2024-07-07
2024-07-08
2024-07-09
2024-11-06
2024-11-06
2024-11-05
2024-11-04
2024-10-27
2024-10-25
2024-10-21
2024-10-21