我要投稿

搭建大模型知识库流程，以及基于langchain实现大模型知识库案例

发布日期：2024-09-05 11:44:54 浏览次数： 3108

作者：AI探索时代

微信搜一搜，关注“AI探索时代”

“ RAG检索增强生成是为了解决大模型知识不足的问题 ”

大模型主要面临三个问题：

垂直领域内的知识不足‍‍‍‍‍

大模型知识有时间限制‍

大模型幻觉问题

第一个问题产生的原因是因为，没有经过垂直领域数据训练的大模型普遍表现不好；其次是目前的大模型采用的是预训练模式，也就是说需要先收集训练数据进行训练，但只能收集之前的数据，不能收集当前和以后的数据；最后就是大模型幻觉问题，幻觉问题产生的原因就是知识不足，导致在一些领域问题中一本正经的胡说八道。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

因此，说到底大模型产生以上三个问题的主要原因就是知识不足，因此RAG——检索增强生成技术就出现了。‍‍‍‍‍‍‍‍‍‍‍

RAG技术配合知识库技术，就能够补充大模型知识不足的问题，知识库的作用就相当于给大模型配置一个资料室，遇到不懂的就去资料室里查。

今天，我们就来讨论一下本地知识库的实现步骤，以及代码。‍‍‍‍‍‍‍‍‍‍‍

知识库的实现步骤及代码‍‍‍‍‍‍‍‍‍

严格来说，解决大模型知识不足问题的技术是RAG——检索增强生成，而不是知识库技术。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

知识库技术在大模型之前就已经出现了，简单来说就是公司内部的文档系统，里面记录了企业内部的资料，文档等，形式可以是一个web系统，甚至就是一个文件夹。‍‍

而我们今天说的大模型知识库是基于RAG技术，结合知识库技术产生的一个变种，主要区别就是数据格式问题。

RAG文档检索生成，就是通过把资料向量化，并为了提升查询效率需要把向量化的文档存入到向量数据库，然后每次在问大模型之前，先去向量数据库中查询与问题相关的内容，通过提示词的方式一并传入到大模型中，这样就可以解决大模型知识不足的问题。

之所以要把资料向量化的原因是，在传统的查询搜索过程中，使用的主要是基于字符匹配的方式进行查询，比如说你想查询西红柿炒蛋的做法，查询的内容中就必须包含西红柿和炒蛋这几个字。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

而有了大模型技术，把资料向量化之后，就可以通过语义进行查询，大模型会根据语义分析，知道西红柿和番茄是一个东西。‍‍‍

大模型知识库的原理就是给大模型外挂一个资料库，但大模型毕竟不是人，需要把资料，文档等转化为大模型能够识别的格式，就是文档向量化。

搭建大模型知识库，需要经过以下几个步骤：

文档加载

在当今互联网时代，知识的形式多种多样，比如文本格式的就是txt，word，pdf等；还有其它格式如图片，结构化数据以及非结构化数据等。‍‍‍‍‍‍‍‍‍‍‍

因此，打造一个知识库需要支持多种文档，以及不同文档的加载路径，如本地加载，网络加载等；而这就是文档加载需要解决的问题。‍

文档分割

在大模型应用中，长文本处理是一个问题，并且大模型窗口都有上下文长度限制；并且，文档还需要处理成大模型能够识别的向量格式，因此对一些长文本文档需要进行文本分割，解决文档过长而导致的问题。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文档分割根据不同的任务场景，需要进行不同的处理，比如文档分割的长度，分割形式(比如，段落，标点符号等)，重叠长度等。‍‍‍‍‍

词嵌入

在传统的知识库系统中，文档是以文本，图片，视频等格式存在的，使用者主要是人，因此只需要能够通过网络加载文档即可。

但在大模型应用中，大模型不认识字，它能够处理的格式只有向量。而且，还需要进行语义分析，因此需要通过词嵌入的方式，把文档转化为大模型能够处理的，且语义连贯的形式，也就是向量格式，而这个技术就叫做词嵌入。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

词嵌入工具本质上也是一个大模型，只不过是专门训练用来完成语义理解和向量转化的模型。‍

Sentence-transformer 词嵌入python 库可以支持多种嵌入模型或者可以使用第三方提供的转化工具，比如openAI，通义千问等。

文档处理整体流程入下图所示：‍‍‍‍‍

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文档存储

文档存储的功能就是需要把通过词嵌入转化的大模型能够识别的向量格式存储起来，一般使用的是向量数据库。‍‍‍‍

当大模型需要使用的时候，再通过检索的形式从向量数据库中获取。‍‍‍‍‍‍‍

文档存储的作用是为了解决查询效率的问题，但也并不是必须的；比如说，当你知识库的内容很少的时候，你也可以选择每次提问的时候，重新加载文档并向量化，这样之前向量化过的文档就存储在向量数据库中，下次使用的时候就可以直接从数据库中查询。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

就类似于在web开发中，你也可以把用户数据通过｜或某种符合间隔起来并保存到txt文件中，每次查询的时候需要读取文件并解析数据，这样就会非常的麻烦；而如果把用户信息存储到数据库中，就会方便的多。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文档检索

从向量数据库中，通过语义对数据进行检索，然后把检索结果带入到大模型中，供大模型使用。技术实现是通过数学计算，根据向量计算相对位置，位置越近语义相关度越高；比如欧式距离，cos值等。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

RAG的难点和重点是数据的质量和检索质量，也就是说本地知识库的好坏和使用的模型(用来回答问题的模型，不是词嵌入的模型)没有什么关系，只是和你检索的效果有关。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

简单来说就是，你的知识库数据质量和向量数据库的质量越好，RAG的效果才越好。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-04-10

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-09

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

用Karpathy的设计哲学重构龙虾助手的知识库架构

2026-04-08

AI数据工程师在应用中如何"返璞归真"

2026-04-08

AIOps探索：分享一套保障100%准确率的告警知识检索方案

2026-04-06

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-02

RAG进化了，深扒Claude Code源码中RAG高级技巧

2026-04-01

Claude Code 源码一夜流出：会看热闹的人很多，会读源码的人很少

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

2026 年你需要了解的 RAG 全解析

2026-01-15

深度解析 PageIndex：无向量 RAG 框架的技术实现与原理剖析

2026-02-13

使用 Agent Skills 做知识库检索，能比传统 RAG 效果更好吗？

2026-02-03

告别向量数据库！PageIndex：让AI像人类专家一样阅读长文档

2026-02-03

RAG 落地全干货深度分享：从“效果不理想”到生产级 RAG 系统的进化之路

2026-02-06

OpenViking：面向 Agent 的上下文数据库

2026-02-02

今天，分享Clawdbot记忆系统最佳工程实践

2026-01-28

告别“伪智能”代码：用 Spec + RAG 打造真正懂你的AI程序员

2026-02-06

从 RAG 到 Agentic Search，一次关于信任 AI 判断的认知升级

2026-02-05

效率神器 Claude-Mem：终结 AI “金鱼记忆”！自动保存上下文、可视化记忆流，开发体验提升 10 倍！

2026-02-06

大家都在问

企业AI落地三重门，用友如何破局？

2026-03-17

Embedding相似度虚高，如何用langchain+Milvus搭建CRAG解决？

2026-03-11

不用向量数据库的 RAG，居然跑得更准了？

2026-02-22

当RAG遇上Agent记忆：为什么相似度检索会"塌方"？

2026-02-15

Claude Cowork 真能替换 RAG ？

2026-02-04

使用 Agent Skills 做知识库检索，能比传统 RAG 效果更好吗？

2026-02-03

为什么 RAG 越用越慢？如何反向调优？

2026-01-19

NotebookLM如何在48小时内分析2万份论文？

2026-01-12

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw