我要投稿

【深入浅出RAG】如何构建生产级的RAG

发布日期：2024-05-15 07:07:07 浏览次数： 2380 作者：AI模数师

关注 ▲AI模数师▲ 探索AI生活，驱动数据智能

欢迎来到AI模数师，这里是 深入浅出RAG系列 的第3篇原创

如果您刚开始接触AI ，欢迎订阅小白学AI系列，零基础搞定大模型！

不用编程！零基础学AI系列

另外~~跟大家宣布个重要的事情！
我已经把自己变成了一个万能的超级智能体，可以在后台问我各种问题~~还可以陪你玩成语接龙和末日生存游戏！欢迎后台私信体验啊~~

RAG绝对是企业打开大模型成本最低、见效最快的方式，通过把文档、报告、图片进行向量化处理，就能快速打造企业专属的智能客服、智能顾问。

而且相比于微调技术，还具备可观测性、可解释性等优势，还可以有效降低大模型的幻觉问题，让人用得放心、用得舒心。

另外一点， RAG 应用的搭建非常简单，通过LlamaIndex、LangChian这些开发框架，或者像LangChain-Chatchat，RAGflow，QAnything这些开源的RAG产品，几分钟都可以在自己笔记本上跑起来一个有模有样的 RAG Demo 原型。

不过可以这种 RAG 原型丢几个文档验证一下就能发现一个严重的事情：除了不准，没毛病。

想要打造一个真正生产级、表现良好、稳定且可扩展的 RAG 程序，那可就不是一件轻松的事了。至少需要让 RAG 具备以下能力：

数据兼容性：并且能处理多种数据类型
回答准确性：要回答准确，不能胡说八道
扩展性：能处理大量数据

所以一个生产级 RAG 的最终目标就是优化检索和生成的性能，更准确地回答更多查询，处理更复杂的数据集，而不产生幻觉。

先回顾下整个RAG的流程，具体解释可以参考

【深入浅出RAG】LangChain vs LlamaIndex vs 腾讯向量数据库，谁才是打开RAG的最优解

左边的标号代表了RAG的三个主要阶段，索引、检索、生成，为了便于识别，相关的每个步骤也都进行了编号。

要想让大模型回答得准确，里面还真有不少坑。比如文档解析的有问题，从源头就出错，那大模型再神也不可能回答正确。

再比如用户提的问题不太准确，或者提了一个完全无关的问题；或者从向量数据库中检索的结果不对；还有可能在把文档切分的时候把一句话切成了两半，这些都会造成最终的回答不准确。

针对上面的问题，现在也有了不少优化方法，LangChain 和 LlamaIndex 团队都提出了一些优化方案，下面是构建生产级 RAG 时需要重点考虑的一些因素：

使用比较好的嵌入模型
给检索结果补充上下文
选择适合的检索方式
对大数据量增加结构化检索

使用比较好的嵌入模型

这个方法绝对是见效最快的，比如网易QAnything的效果比较好就是因为采用了bge-large-zh-v1.5的嵌入模型，经过验证，只改变嵌入模型就可以大幅提升RAG整体的效果。

网易发布的测试结果，bge-large-zh-v1.5在中文数据集上还是有明显优势的，相关模型可以通过ollama，或者魔搭社区（modelscope.cn）都可以下载。

给检索结果补充上下文

在实际情况中，经常会发生向量数据库只检索出某一句话，但是缺乏这句话的前后背景信息，把这个结果丢给大模型生成答案的话，会造成答案不准确。

这个优化方法就是在检索到结果之后，把段落的前后背景分别补充上，一起给大模型。

还有另一种方法是在最开始处理文档的时候，对段落进行总结，然后把总结好的结果跟相关信息一起存放到向量数据库中。在遇到问题检索时一起提取出来。

这样把前后文的背景信息或者总结的摘要信息，带上检索出来的结果和问题，一起丢给大模型，回答的质量可以明显提高。

选择适合的检索方式

跟关系型数据库中的检索不同，从向量数据库中检索的结果是前几条最相似的信息。

但有时候用户的提问有可能是有明确答案的，比如鲁迅的诞辰是哪一年，阿里巴巴公司是在哪一年成立的。

这种有明确答案的问题不一定合适再用向量数据库检索，更适合到关系型数据库或者图数据库中查询。不能用战术的勤奋解决战略的懒惰，是不是应该到向量数据库查询，其实是拿到问题需要考虑的第一个问题。

对大数据量增加结构化检索

标准RAG（top-k 检索 + 基本文本分割）面临的一个大问题是随着文档数量的增加，它的表现会下降——例如有 100 个不同的 PDF 文档。

在这种情况下，面对一个问题，最好的方式是先把问题圈定在少数的相关文件中。这时候还是需要使用结构化信息来帮助更精确地检索；

例如用户提问的是一个清朝的历史，就不适合在所有文档中查询，先把查询书名或者标签，把查询范围限定在清朝的历史相关的文档，这样能大幅提高检索效率。（不过带来的新问题就是怎么给文档打标签了）

目前来看，面对大量数据怎么能高效地检索出准确的结果目前还没有达成一个业界成熟通用的解决方案。

RAG虽然是大模型在企业中最快能落地的一项技术，但是目前还处于一个发展期，后面的文章也会给大家汇报持续的探索结果，辛苦我一个，幸福送大家。

如果您也在AI学习的路上，欢迎关注我，获取更多关于AI的资讯和教程。让我们一起探索智能科技的无限可能！

觉得我的文章对你有帮助的话，请不要吝啬你的点赞、在看和转发~

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

一文了解：大模型 Agent 开发框架有哪些？它们的区别是什么？

2025-04-27

为什么新手比专家更想做垂直领域SFT微调？

2025-04-27

伪装成浏览器的 AI Agent，好用吗？

2025-04-26

RAG比之MCP或长上下文LLM，要没落了吗？

2025-04-26

从 MCP 到项目管理，为什么“开放”成了新风向？

2025-04-25

国内首个云电脑 MCP！人人都能搞个 Manus？

2025-04-25

为什么一定要做Agent智能体？

2025-04-25

HR AI小科普——什么是MCP？

2025-04-25

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB