AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


RapidAI出品的RAG套件汇总
发布日期:2024-05-13 22:02:29 浏览次数: 1735


引言

近来,LLM(大语言模型)的火热重塑了诸多行业和领域。其中,基于文档的知识问答系统可以说是当前落地最最直接的。之所以这么说,是因为企业内部运作离不开各种文档的使用,企业对外的产品也自然离不开相关说明文档的使用。没有 LLM 之前,这些文档都需要经过专门培训的员工才能发挥它的作用。如今,我们借助 LLM 强大的信息总结能力,完全可以将这些文档作为一个知识库,LLM 作为万能客服,根据文档内容快速准确地回答用户提问。

通过将不同的文档接入LLM,我们可以打造不同的客服角色,包括对内的新员工入职指导、员工寻找内部产品文档和对外解答客户产品疑问等等。上述的实现,均离不开 RAG 的使用。那么 RAG 是什么呢?请看下面的讲解。

RAG 是什么?

RAG 是 Retrieval Augmented Generation 的缩写,中文译为:检索增强生成。一般在 LLM 原始数据集的基础上,通过加入外部数据(如本地知识库、企业信息库等)来对 AI 模型的“检索”和“生成”能力进行加持,以提高信息查询和生成质量。

当使用LLM时,经常会遇到时效性和幻觉问题,特别是在某些较为专业领域,这可能导致一些不相关或混乱的结果。RAG与LLM的结合使用可以有效地解决这两个问题,使得在这些领域中的应用更为可靠和准确。

 RAG的核心在于如何高效地从文档中提取内容。因为只有先将文档中的文本信息提取出来,才能供LLM整合并产生输出。然而,企业文档的样式千变万化,其中许多可能是图像格式或者扫描版的PDF等,这使得传统的技术难以快速有效地提取其中的文本内容。因此,这就需要利用基于深度学习的光学字符识别(OCR)技术。

RAG 必备:Rapid⚡️OCR


RapidOCR[1] 是RapidAI下明星项目,目前已知运行速度最快、支持最广泛的多平台多语言OCR。它完全开源免费,并支持离线快速部署。

我们启动这个项目的初衷:PaddleOCR的工程化尚有提升空间,为了方便用户在各种平台上进行OCR推理,我们将PaddleOCR中的模型转换为ONNX格式,并利用Python/C++/Java/C#将其移植到各个平台,方便大家使用。

RapidOCR名称解释为:轻快好省并智能。基于深度学习的OCR技术,主打人工智能优势及小模型,以速度为使命,效果为主导。

RapidOCR Github仓库目前已有2k+ stars。其中rapidocr_onnxruntime库的下载量已经有?385k+,且持续增长中。这无不说明RapidOCR已经得到了大家的认可和广泛使用。

据不完全统计,RapidOCR 已经被许多 RAG 项目所使用,举例如下:

  • Langchain-Chatchat[2](27.9k stars)
  • DB-GPT[3] (432 stars)
  • api-for-open-llm[4] (2k stars)
  • ChatLLM[5] (392 stars)
  • OpenAdapt[6] (536 stars)
  • Knowledge-QA-LLM[7] (169 stars)

RapidOCR无疑已经成为RAG不可或缺的工具。我们为此而感到开心,并欢迎大家多多使用,共同完善它,让它变得更好。

RapidAI 下其他相关套件还有哪些?
  • RapidStructure[8]: 版面分析 | 表格识别 | 文档方向分类
  • RapidOCRPDF[9]: PDF 内容提取
  • RapidLaTexOCR[10]: 公式识别
  • TableStructureRec[11]: 表格识别
  • ExtractOfficeContent[12]:  Word/PPT/Excel 内容提取

写在最后

以上所介绍的相关套件几乎涵盖了RAG文档处理的各个方面。通过简单的整理和二次开发,您就能轻松地构建自己的RAG系统。我们鼓励大家积极使用并关注这些套件,同时我们也将持续更新和维护它们。?

点击文末“阅读原文”即可跳转到 RapidOCR 官方文档,快快开始您的OCR旅程吧!

参考资料

[1]

RapidOCR: https://github.com/RapidAI/RapidOCR

[2]

Langchain-Chatchat: https://github.com/chatchat-space/Langchain-Chatchat

[3]

DB-GPT: https://github.com/TsinghuaDatabaseGroup/DB-GPT

[4]

api-for-open-llm: https://github.com/xusenlinzy/api-for-open-llm

[5]

ChatLLM: https://github.com/yuanjie-ai/ChatLLM

[6]

OpenAdapt: https://github.com/OpenAdaptAI/OpenAdapt

[7]

Knowledge-QA-LLM: https://github.com/RapidAI/Knowledge-QA-LLM

[8]

RapidStructure: https://github.com/RapidAI/RapidStructure

[9]

RapidOCRPDF: https://github.com/RapidAI/RapidOCRPDF

[10]

RapidLaTexOCR: https://github.com/RapidAI/RapidLaTexOCR

[11]

TableStructureRec: https://github.com/RapidAI/TableStructureRec

[12]

ExtractOfficeContent: https://github.com/SWHL/ExtractOfficeContent


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询