我要投稿

泼冷水：CherryStudio+本地知识库，没你想的那么简单

发布日期：2025-03-20 04:51:06 浏览次数： 1766 作者：AI的回响

知识库，没那么简单

最近，有很多朋友在看了我的（假装是这样）一系列介绍 CherryStudio 的教程以后，都开始使用CherryStudio这个全能AI助手了。如果你还没有看过，可以翻看本账号之前的内容，相信一定会有所收获。

我相信很多朋友使用CherryStudio的目的，除了AI对话以外，还想建立自己的知识库，让AI能结合自己提供的资料生成更有针对性的回答。

这是一个很自然、也很美好的想法。但是，不少人上手操作以后却发现，效果根本不是自己想象的那样。

这就是本文将要探讨的问题。

如果你正在为这样的问题而困扰，或者你正打算建一个自己的知识库，接下来的内容一定会帮到你。

说明：本文虽然以CherryStudio为例进行介绍，但这些知识并不局限于CherryStudio，其他同类工具大概都通用。

纠正一个认知误区

很多人想象的“AI+知识库”，是自己把搜集整理的资料一股脑丢进CherryStudio的知识库，等到自己提问的时候，AI会把里面的内容认真通读一遍，从中搜集相关内容，再综合分析思考、输出一个非常完美的答复。

No，根本不是这样的！

有些人以为，自己把一堆的数据表格扔进知识库，AI会进行专业的统计分析，当自己问到某个数据，AI会对答如流，准确无误。

No，也不是这样的！

这里请记住一个知识点：你放进知识库的所有原始资料，AI（不限于DeepSeek）根本接触不到！

AI能接触到的，仅仅是可能与你的问题有关的、极少一部分的资料片段。

为什么会这样？

知识库的基本原理

如果你想用好知识库，就一定要搞明白知识库的基本原理和工作流程，也就一定要搞明白下面这张图。

这个流程图虽然看起来有一点复杂，但是逻辑关系非常清晰，下面我会尽量用简单易懂的方式，给你解释清楚。

这张图从上到下被虚线分为三部分：

原始资料的处理过程

在第一行里，当用户把各种原始资料添加进知识库里，会有程序首先进行预处理，对它们提取有用的文本内容，剔除没用的干扰信息，然后把它们拆分成无数个文本块（chunk）。

你可以类比为把一整本的书，拆分成了一段一段（甚至于一句一句）的内容。

这些文本块被添加进（嵌入）向量数据库的时候，会被嵌入模型进行向量化。也就是把原来的文本片段，通过算法变成了一个超级长的数字序列，就像这样的：

[-0.023 0.145 -0.067 0.098 0.032 0.124 -0.012 ...]

假如嵌入模型是1024维，那么每个片段都会被转换成一个包含1024个数值的向量。

然后，最终被存进向量数据库的，不单单是无数个这样向量值，还有它们所对应的文本块内容。

在这一步请认真思考：什么样的资料适合被拆分？哪些资料不适合？

用户问题的处理过程

在流程图第二行里可以看到，用户提出的问题，并不是直接就到了大模型那里，而是先要嵌入进行向量化处理，也会变成一个包含1024个数值的向量。

然后，把它拿到向量数据库进行相似匹配。

请注意：这里匹配的不是文字内容，而是通过算法对完全由数字组成的向量进行一一匹配。

通过大量快速的向量匹配，最终在向量库里筛选出了一些（极少量）匹配度比较高的向量。知识库再调出这些向量对应的的片段原文，也就是最有可能和用户的问题相关的文本片段。

回复内容的生成过程

在流程图的第三行，才是大模型真正开始回答问题的过程。

从向量数据库里调出的片段原文，再加上用户的问题原文，合并在一起提交给大模型（DeepSeek）以后，它会结合这些信息，以及自己训练的数据，进行综合的分析推理，最终生成回复内容给用户。

这一步请注意两个问题：图中原始资料和大模型之间的距离有多远？知识库中的那么多资料，大模型最终获取到的有多少？

谜底揭开

我相信上面介绍的知识库工作流程，并不是特别艰深难懂。

如果你看懂了，你的很多困惑，应该也已经不存在了。

所以，以后不要试图让大模型告诉你，你的知识库里有几份关于xxx的文件，它根本看不到啊！

也不要试图把一堆数据表格塞进知识库，让大模型给你统计某一项的总数值，它根本看到所有的数据啊！

大模型不是这么用的，知识库不是这么玩的。当然，这并不是说本地知识库没有用。要想用好它，需要一定的方法技巧。

至于到底应该怎么用，篇幅所限，以后会再详细介绍。

再看CherryStudio知识库

当你对知识库有了一些基本了解，再打开CherryStudio知识库看一看，你会有一些新的收获。

嵌入模型

新建知识库的时候，首先要选的就是嵌入模型。

现在你应该明白，嵌入模型和大语言模型，干的活根本不一样，所以这里不会有DeepSeek给你选。

目前比较好用的中文嵌入模型，是bge系列，你也可以试试把相同的内容通过不同的嵌入模型进行处理，对比看一下效果有什么不同。

模型信息

在知识库页面底部，你还会看到模型信息。

嵌入模型有多少个维度，就表示每个片段会被它转换成一个包含多少个数字的向量。虽然人类一看就头大，却非常适合计算机用算法进行高效运算。

搜索

如果你输入某个关键词，在知识库里进行搜索，可以看到它返回的内容，就是一条条被分割的片段。

你也许会注意到，每一个片段的长度都差不多。如果统计它们的字数，你会发现居然都一样！

没错，这就是原始资料被拆分时，每个片段的固定长度。

你再看也不难发现，其实很多出现在开头结尾的句子，都被粗暴的拆断了。

每个片段右上角的百分比，表示算法计算出来的匹配度。

你自己可以仔细看一看，搜索返回的内容，跟你想要搜索的内容，真的有关系吗？如果没有，你就理解为什么明明加了知识库，AI的回复还是很糟糕。因为它拿到的资料就是一堆垃圾！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-24

RAG 落地必备的 1 个开源 AI 原生向量数据库 —Chroma

2025-04-24

用维基百科(wikipedia) 数据集上手RAG 优化实践

2025-04-24

Dify工作流→知识检索|问题分类

2025-04-24

基于MiniO存储的RAGFlow+Dify图片处理方案

2025-04-24

一文搞懂GraphRAG（RAG + 知识图谱）

2025-04-24

CAMEL-AI与OceanBase向量数据库的深度融合

2025-04-23

RAG 作者：RAG 已死，RAG 万岁！

2025-04-23

基于推理模型+RAG+Agent，作业帮内部安全体系建设实践

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网最全国内Agent平台深度测评：扣子、Dify、FastGPT，谁是你的Agent开发首选？

2024-10-27

一文彻底搞懂大模型 - RAG（检索、增强、生成）

2024-09-04

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

RAGFlow：基于OCR和文档解析的下一代 RAG 引擎

2024-05-05

RAG框架，都在这了!

2024-06-20

RAG 高效应用指南：Embedding 模型的选择和微调

2024-06-13

深入解析 Graph RAG：提升语言模型问答能力的创新策略

2024-07-09

微软开源的GraphRAG解读

2024-07-09

基于Llama 3 构建RAG语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成

2024-05-19

Prompt工程师必备：复旦重磅 | 最佳RAG实践长什么样的？

2024-07-07

大家都在问

RAG应用必备！10种向量数据库全解析、Weaviate、Milvus、pgvector、Qdrant等热门工具谁更强？

2025-04-22

18种RAG技术大比拼：谁才是检索增强生成的最佳选择？

2025-04-22

大模型能像专业分析师一样提取用户需求吗？

2025-04-20

RAG vs. CAG vs. Fine-Tuning：如何为你的大语言模型选择最合适的“脑力升级”？

2025-04-19

什么是RAG与为什么要RAG？

2025-04-18

真实场景下落地RAG的十条建议及RAG中如何提升个性化？

2025-04-16

RAG系统中的“幕后英雄”：重排器如何提升信息检索的精准度？

2025-04-14

Dify 基础篇| 深度解读 RAG：为什么需要混合检索？

2025-04-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB