我要投稿

破解大模型困境：RAG技术如何成为AI的终极武器？

发布日期：2025-01-24 19:35:06 浏览次数： 2269 作者：一叶不扁舟

大模型虽然厉害，但并非全能。它主要有三大局限性：知识的局限性、幻觉问题、数据安全问题。　

这三大问题，导致通用大模型无法在实际的业务场景中帮助企业和公司解决具体问题。　

知识的局限性，指的是模型自身的知识完全源于它的训练数据，而现有的主流大模型的训练都是基于网络公开的数据，对一些实时性的、非公开的数据是无法获取到的，这部分知识也就无从具备。　

幻觉问题，所有的AI模型的底层原理都是基于数据概率，其模型输出实际上一系列数值计算，大模型也不例外，所以它有时候会一本正经地胡说八道，尤其是在大模型自身不具备某一方面的知识或不擅长的场景。　

而这种幻觉问题的区分是比较困难的，因为它要求使用者具备相应领域的知识。　

数据安全性，对于企业来说，数据安全至关重要，没有企业愿意承担数据泄露的风险，将自身的私域数据上传第三方平台进行训练。这也导致完全依赖通用大模型自身能力的应用方案，不得不在数据安全和效果方面进行取舍。　

那么有什么方法可以帮助解决上述三个问题么？　

当然有！它就是RAG技术，全称是：检索增强生成（Retrieval Augmented Generation)，它是目前最火热的大模型应用方案之一，被很多企业和机构所使用。　

这篇文章就来简单介绍一下这个技术。　

01 RAG架构

RAG架构的本质，是通过检索获取相关的知识并将其融入Prompt，让大模型能够参考相应的知识从而给出合理回答。　

简单来说，就是给大模型装一个“外脑”或者“外部数据库”，每次用户提问的时候，先去“外部知识库”里检索相应的文本，然后结合这些文本，通过Prompt一起喂给大模型，再生成答案。　

因此，RAG技术也可以分解成“检索+生成”的技术。　

检索部分，需要提前搭建好“外部知识库”，确定好检索策略，能够让用户提出的问题检索到相对应的文本片段。　

生成部分，需要提前写好Prompt，把上面检索出来的文本片段放进Prompt里，进行上下文结合以及信息重排，给到大模型进行生成。　

从零到一搭建完整的RAG架构，往往需要两个阶段：数据准备阶段，检索应用阶段。　

02 RAG的数据准备阶段

在这个阶段的主要目标，是帮助大模型建立好一个“外脑”，具体需要以下四个步骤：数据提取、文本分割、向量化、数据入库。　

第一步，数据提取，它是指确定好“外部数据库”所要包含的内容，比如对于一个企业来说，有销售数据、人力数据、行政数据、产品数据、合同数据等等。　

公司的每个部门都有大量的历史数据，在数据提取部分，就是把这些数据给统一起来，比如那些PDF、Word、PPT、Excel、Txt等各种格式的数据，要进行统一处理，这个过程也可以分为三小步。　

首先，数据加载。先找到多格式的数据源，然后根据数据自身情况，将数据处理为同一范式。　

其次，数据处理。包含了数据的过滤、压缩以及格式化等，目的是为了让其更好地存入数据库中。　

最后，元数据获取。它是指提取数据中的关键信息，比如文件名、Title、以及时间等信息。　

第二步，文本分割。这一阶段非常重要，主要需要考虑两个因素，一个是embeddding模型的token限制情况，另一个是语义完整性对整体的检索效果的影响。　

一些常见的文本分割方式主要包含两种，一种是按照句子分割，也就是依照“句”为颗粒度进行切分，保留一个句子的完整语义。常见的切分符包括：句号、问号、感叹号、换行符等。　

在具体分割过程中，需要根据分割的实际情况，对分割策略进行迭代优化，它也可以叫做切片。有时候切的多，有时候切的少，都会影响最后的检索效果，所以需要不断去尝试，针对不同文本内容，采用不同切片策略。　

第三步，向量化（embedding）。它是一个将文本数据转化为向量矩阵的过程，该过程会直接影响到后续的检索过程。一般会使用常见的embedding模型来完成这个动作、　

这些embedding模型能够满足基本的大多数需求，但对于特殊场景或者想要进一步优化效果，则可以选择开源的embedding 模型微调或者训练成适合自身场景的embedding 模型。　

第四步，数据入库。它是指数据向量化之后，构建索引并写入数据库的过程。一般适用于RAG场景的数据库包括：FAISS、Chromaadb、ES、milvus等。　

这些数据库的选择，一般根据业务场景、硬件、性能需求等多因素考虑，选择最合适的数据库类型。　

03 检索应用阶段

在应用阶段，可以根据用户的提问，通过高效的检索方法，召回与提问最相关的知识，并融入Prompt。大模型参考当前提问和相关知识，进而生成相应的答案。　

这个阶段的关键环节包含两个：数据检索、Prompt注入。　

第一步：数据检索。在这里需要用到一些数据检索方法，比如常见的：相似性检索、全文检索、混合检索等；根据检索效果，一般可以选择多种检索方式融合，提升召回率。　

相似性检索，指的是计算查询向量与所有存储向量的相似性得分，返回得分高的记录。常见的相似性计算方法包括：余弦相似性、欧式距离、曼哈顿距离等。　

全文检索，它是一种比较经典的检索方式，在数据存入时，通过关键词构建倒排索引；在检索时，通过关键词进行全文索引，找到对应的记录。　

第二步：注入Prompt。Prompt作为大模型的直接输入，是影响模型输出准确率的关键因素之一。在RAG场景中，Prompt一般包括：任务描述、背景知识（检索得到）、任务指令（一般用户提问）等。　

根据任务场景和大模型性能，也可以在Prompt中适当加入其它指令优化大模型的输出。比如下面是一个简单的知识场景Prompt示例：　

❤️

【任务描述】　

假如你是一个专业的客服机器人，请参考【背景知识】，回答【问题】　

【背景知识】　

{数据检索得到的相关文本内容}　

【问题】　

石头扫地机器人P10的续航时间是多久？　

Prompt的设计只有方法，并没有语法，比较依赖于个人经验，在实际应用过程中，往往需要根据大模型的实际输出，进行针对性的Prompt调优。　

尾声：

这就是RAG架构的简单介绍，它通过给大模型打造一个灵活的“外脑”，或者外部知识库，来减少自身局限性所带来的影响。　

大模型的知识有局限性，那就给它加个新的知识库；大模型容易出现幻觉，那就告诉它如何在指定的范围内回答；大模型会有数据安全问题，那就把重要的知识，存在私域知识库中作为大模型的“外脑”。　

这就是RAG能够成为大模型应用方案的最大原因，它通过两大阶段六个步骤，接近完美式地让大模型可以服务具体的业务应用场景。　

两大阶段是数据准备阶段和应用阶段，六大步骤是：数据提取、文本分割、向量化、数据入库、数据检索、Prompt注入。　

当然，RAG技术也在随着时间的发展而不断进化，今天介绍的这个RAG架构只是最基本最简单的技术，除此以外，还有更加复杂和灵活多变的RAG延伸技术，解决更加复杂的业务场景。　

总之，虽然大模型有一些天生的bug，但是总会有相对应的解决方案去弥补它。　

大模型能够真正改变和彻底影响人类的经济活动和日常生活的日子，已经越来越近了！　

让我们一起做好准备，迎接未来！　

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-26

深度学习！构建基于LangGraph的RAG多智能体研究工具。

2025-04-26

用RAG与Agent提升企业问答效率：我的AI实践之路

2025-04-26

理解 RAG 第一部分：为什么需要它

2025-04-26

理解 RAG 第三部分：融合检索与重新排序

2025-04-26

理解 RAG 第四部分：检索增强生成评估框架

2025-04-26

理解 RAG 第五部分：管理上下文长度

2025-04-26

RAG比之MCP或长上下文LLM，要没落了吗？

2025-04-26

【Ragflow】21.RagflowPlus(v0.2.1)：6个bug修复/增加重置密码功能

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网最全国内Agent平台深度测评：扣子、Dify、FastGPT，谁是你的Agent开发首选？

2024-10-27

一文彻底搞懂大模型 - RAG（检索、增强、生成）

2024-09-04

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

RAGFlow：基于OCR和文档解析的下一代 RAG 引擎

2024-05-05

RAG框架，都在这了!

2024-06-20

RAG 高效应用指南：Embedding 模型的选择和微调

2024-06-13

深入解析 Graph RAG：提升语言模型问答能力的创新策略

2024-07-09

微软开源的GraphRAG解读

2024-07-09

基于Llama 3 构建RAG语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成

2024-05-19

Prompt工程师必备：复旦重磅 | 最佳RAG实践长什么样的？

2024-07-07

大家都在问

RAG比之MCP或长上下文LLM，要没落了吗？

2025-04-26

HR AI小科普——什么是MCP？

2025-04-25

RAG应用必备！10种向量数据库全解析、Weaviate、Milvus、pgvector、Qdrant等热门工具谁更强？

2025-04-22

18种RAG技术大比拼：谁才是检索增强生成的最佳选择？

2025-04-22

大模型能像专业分析师一样提取用户需求吗？

2025-04-20

RAG vs. CAG vs. Fine-Tuning：如何为你的大语言模型选择最合适的“脑力升级”？

2025-04-19

什么是RAG与为什么要RAG？

2025-04-18

真实场景下落地RAG的十条建议及RAG中如何提升个性化？

2025-04-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB