支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


泼冷水:CherryStudio+本地知识库,没你想的那么简单

发布日期:2025-03-20 04:51:06 浏览次数: 1678 作者:AI的回响
推荐语

深入解析CherryStudio知识库的构建与误区,助你高效利用AI助手。

核心内容:
1. CherryStudio知识库构建的常见误区
2. 知识库的基本原理与工作流程
3. 原始资料处理与用户问题解析的关键步骤

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

知识库,没那么简单

最近,有很多朋友在看了我的(假装是这样)一系列介绍 CherryStudio 的教程以后,都开始使用CherryStudio这个全能AI助手了。如果你还没有看过,可以翻看本账号之前的内容,相信一定会有所收获。

我相信很多朋友使用CherryStudio的目的,除了AI对话以外,还想建立自己的知识库,让AI能结合自己提供的资料生成更有针对性的回答。

这是一个很自然、也很美好的想法。但是,不少人上手操作以后却发现,效果根本不是自己想象的那样。

这就是本文将要探讨的问题。

如果你正在为这样的问题而困扰,或者你正打算建一个自己的知识库,接下来的内容一定会帮到你。

说明:本文虽然以CherryStudio为例进行介绍,但这些知识并不局限于CherryStudio,其他同类工具大概都通用。

纠正一个认知误区

很多人想象的“AI+知识库”,是自己把搜集整理的资料一股脑丢进CherryStudio的知识库,等到自己提问的时候,AI会把里面的内容认真通读一遍,从中搜集相关内容,再综合分析思考、输出一个非常完美的答复。

No,根本不是这样的!

有些人以为,自己把一堆的数据表格扔进知识库,AI会进行专业的统计分析,当自己问到某个数据,AI会对答如流,准确无误。

No,也不是这样的!

这里请记住一个知识点:你放进知识库的所有原始资料,AI(不限于DeepSeek)根本接触不到!

AI能接触到的,仅仅是可能与你的问题有关的、极少一部分的资料片段。

为什么会这样?

知识库的基本原理

如果你想用好知识库,就一定要搞明白知识库的基本原理和工作流程,也就一定要搞明白下面这张图

这个流程图虽然看起来有一点复杂,但是逻辑关系非常清晰,下面我会尽量用简单易懂的方式,给你解释清楚。

这张图从上到下被虚线分为三部分:

原始资料的处理过程

在第一行里,当用户把各种原始资料添加进知识库里,会有程序首先进行预处理,对它们提取有用的文本内容,剔除没用的干扰信息,然后把它们拆分成无数个文本块(chunk)。

你可以类比为把一整本的书,拆分成了一段一段(甚至于一句一句)的内容。

这些文本块被添加进(嵌入)向量数据库的时候,会被嵌入模型进行向量化。也就是把原来的文本片段,通过算法变成了一个超级长的数字序列就像这样的:

[-0.023 0.145 -0.067 0.098 0.032 0.124  -0.012 ...]

假如嵌入模型是1024维,那么每个片段都会被转换成一个包含1024个数值的向量。

然后,最终被存进向量数据库的,不单单是无数个这样向量值,还有它们所对应的文本块内容

在这一步请认真思考:什么样的资料适合被拆分?哪些资料不适合?

用户问题的处理过程

在流程图第二行里可以看到,用户提出的问题,并不是直接就到了大模型那里,而是先要嵌入进行向量化处理,也会变成一个包含1024个数值的向量。

然后,把它拿到向量数据库进行相似匹配。

请注意:这里匹配的不是文字内容,而是通过算法对完全由数字组成的向量进行一一匹配

通过大量快速的向量匹配,最终在向量库里筛选出了一些(极少量)匹配度比较高的向量。知识库再调出这些向量对应的的片段原文,也就是最有可能和用户的问题相关的文本片段。

回复内容的生成过程

在流程图的第三行,才是大模型真正开始回答问题的过程。

从向量数据库里调出的片段原文,再加上用户的问题原文,合并在一起提交给大模型(DeepSeek)以后,它会结合这些信息,以及自己训练的数据,进行综合的分析推理,最终生成回复内容给用户。

这一步请注意两个问题:图中原始资料和大模型之间的距离有多远?知识库中的那么多资料,大模型最终获取到的有多少?

谜底揭开

我相信上面介绍的知识库工作流程,并不是特别艰深难懂。

如果你看懂了,你的很多困惑,应该也已经不存在了。

所以,以后不要试图让大模型告诉你,你的知识库里有几份关于xxx的文件,它根本看不到啊!

也不要试图把一堆数据表格塞进知识库,让大模型给你统计某一项的总数值,它根本看到所有的数据啊!

大模型不是这么用的,知识库不是这么玩的。当然,这并不是说本地知识库没有用。要想用好它,需要一定的方法技巧。

至于到底应该怎么用,篇幅所限,以后会再详细介绍。

再看CherryStudio知识库

当你对知识库有了一些基本了解,再打开CherryStudio知识库看一看,你会有一些新的收获。

嵌入模型

新建知识库的时候,首先要选的就是嵌入模型。

现在你应该明白,嵌入模型和大语言模型,干的活根本不一样,所以这里不会有DeepSeek给你选。

目前比较好用的中文嵌入模型,是bge系列,你也可以试试把相同的内容通过不同的嵌入模型进行处理,对比看一下效果有什么不同。

模型信息

在知识库页面底部,你还会看到模型信息。

嵌入模型有多少个维度,就表示每个片段会被它转换成一个包含多少个数字的向量。虽然人类一看就头大,却非常适合计算机用算法进行高效运算。

搜索

如果你输入某个关键词,在知识库里进行搜索,可以看到它返回的内容,就是一条条被分割的片段。

你也许会注意到,每一个片段的长度都差不多。如果统计它们的字数,你会发现居然都一样!

没错,这就是原始资料被拆分时,每个片段的固定长度。

你再看也不难发现,其实很多出现在开头结尾的句子,都被粗暴的拆断了。

每个片段右上角的百分比,表示算法计算出来的匹配度。

你自己可以仔细看一看,搜索返回的内容,跟你想要搜索的内容,真的有关系吗?如果没有,你就理解为什么明明加了知识库,AI的回复还是很糟糕。因为它拿到的资料就是一堆垃圾!

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询