微信扫码
与创始人交个朋友
我要投稿
近来,LLM(大语言模型)的火热重塑了诸多行业和领域。其中,基于文档的知识问答系统可以说是当前落地最最直接的。之所以这么说,是因为企业内部运作离不开各种文档的使用,企业对外的产品也自然离不开相关说明文档的使用。没有 LLM 之前,这些文档都需要经过专门培训的员工才能发挥它的作用。如今,我们借助 LLM 强大的信息总结能力,完全可以将这些文档作为一个知识库,LLM 作为万能客服,根据文档内容快速准确地回答用户提问。
通过将不同的文档接入LLM,我们可以打造不同的客服角色,包括对内的新员工入职指导、员工寻找内部产品文档和对外解答客户产品疑问等等。上述的实现,均离不开 RAG 的使用。那么 RAG 是什么呢?请看下面的讲解。
RAG 是 Retrieval Augmented Generation 的缩写,中文译为:检索增强生成。一般在 LLM 原始数据集的基础上,通过加入外部数据(如本地知识库、企业信息库等)来对 AI 模型的“检索”和“生成”能力进行加持,以提高信息查询和生成质量。
当使用LLM时,经常会遇到时效性和幻觉问题,特别是在某些较为专业领域,这可能导致一些不相关或混乱的结果。RAG与LLM的结合使用可以有效地解决这两个问题,使得在这些领域中的应用更为可靠和准确。
RAG的核心在于如何高效地从文档中提取内容。因为只有先将文档中的文本信息提取出来,才能供LLM整合并产生输出。然而,企业文档的样式千变万化,其中许多可能是图像格式或者扫描版的PDF等,这使得传统的技术难以快速有效地提取其中的文本内容。因此,这就需要利用基于深度学习的光学字符识别(OCR)技术。
RapidOCR[1] 是RapidAI下明星项目,目前已知运行速度最快、支持最广泛的多平台多语言OCR。它完全开源免费,并支持离线快速部署。
我们启动这个项目的初衷:PaddleOCR的工程化尚有提升空间,为了方便用户在各种平台上进行OCR推理,我们将PaddleOCR中的模型转换为ONNX格式,并利用Python/C++/Java/C#将其移植到各个平台,方便大家使用。
RapidOCR名称解释为:轻快好省并智能。基于深度学习的OCR技术,主打人工智能优势及小模型,以速度为使命,效果为主导。
RapidOCR Github仓库目前已有2k+ stars。其中rapidocr_onnxruntime
库的下载量已经有?385k+,且持续增长中。这无不说明RapidOCR已经得到了大家的认可和广泛使用。
据不完全统计,RapidOCR 已经被许多 RAG 项目所使用,举例如下:
以上所介绍的相关套件几乎涵盖了RAG文档处理的各个方面。通过简单的整理和二次开发,您就能轻松地构建自己的RAG系统。我们鼓励大家积极使用并关注这些套件,同时我们也将持续更新和维护它们。?
点击文末“阅读原文”即可跳转到 RapidOCR 官方文档,快快开始您的OCR旅程吧!
RapidOCR: https://github.com/RapidAI/RapidOCR
[2]Langchain-Chatchat: https://github.com/chatchat-space/Langchain-Chatchat
[3]DB-GPT: https://github.com/TsinghuaDatabaseGroup/DB-GPT
[4]api-for-open-llm: https://github.com/xusenlinzy/api-for-open-llm
[5]ChatLLM: https://github.com/yuanjie-ai/ChatLLM
[6]OpenAdapt: https://github.com/OpenAdaptAI/OpenAdapt
[7]Knowledge-QA-LLM: https://github.com/RapidAI/Knowledge-QA-LLM
[8]RapidStructure: https://github.com/RapidAI/RapidStructure
[9]RapidOCRPDF: https://github.com/RapidAI/RapidOCRPDF
[10]RapidLaTexOCR: https://github.com/RapidAI/RapidLaTexOCR
[11]TableStructureRec: https://github.com/RapidAI/TableStructureRec
[12]ExtractOfficeContent: https://github.com/SWHL/ExtractOfficeContent
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19