微信扫码
添加专属顾问
我要投稿
掌握CherryStudio知识库设置,提升信息管理效率。核心内容:1. 新建知识库的操作步骤与嵌入模型选择2. 知识库参数设置,包括请求文档分段数量的影响3. token消耗、上下文长度限制和API接口限制的详细解析
字数 1916,阅读大约需 10 分钟
最近,有好几位朋友问我关于CherryStudio知识库的设置问题。
虽然前面已经讨论过很多了,但是我仔细看了看,确实漏掉了一点没有说清楚,那就是知识库的参数设置问题,这一篇就再详细说一下。
在知识库界面选择“添加”,就会弹出添加知识库窗口。
在这里,名字可以自己设置,嵌入模型如果你不知道选哪个,可以先选bge系列。
关于如何选择嵌入模型的问题,我打算放在近期发布的《知识库优化之路(三)》里面,详细介绍。这里暂时先放一放,先继续今天的话题。
知识库添加完成之后,在模型信息那里,有一个设置按钮。
点击之后,就进入了知识库的设置界面。
在这里可以看到,嵌入模型是无法再更改的。这就意味着,嵌入模型只能在新建知识库时选好。
如果实在想改,唯一的做法就是删除知识库,重新创建。
除了嵌入模型,知识库可以设置的参数其实不多,下面分别介绍。
这个应该很好理解吧,就是当你向大模型提问时如果添加了知识库,会有几个资料片段会和你的问题一起提交给大模型。
CherryStudio默认的设置是6段,最大值可以设置到30。
但是,这里绝不是越多越好!
因为它受到几个因素的限制。
第一,token消耗(金钱消耗):
当你把鼠标放在问号上,就能看到CherryStudio官方的提示:请求文档分段数量越多,附带的信息越多,但需要消耗的 Token 也越多。
假如嵌入模型分段时每个片段是500个字,粗略计算按照500个token来说,30段就是15000个token。
参考DeepSeek官方价格(推理模型百万token4元),15000个token就是6分钱。
当然你的对话也不可能只进行一轮,如果是多轮对话,即便考虑缓存命中的情况,几轮对话下来,消耗几毛钱还是有的。
第二,上下文长度限制。
如果你不理解什么是上下文长度,请现在就去补课:
用一个武侠故事,讲清DeepSeek最易被忽视的一个重要使用技巧
DeepSeek-R1的上下文长度是64k,也就是64000个token。
如果你第一轮输入就使用了超过15000token,那么你的对话进行不了几轮,总的上下文长度就会超过64000个。
上下文长度超标以后会有什么后果,如果你刚才去补过课,应该能理解。
第三,API接口限制。
有些API会限制每分钟使用的token总量。DeepSeek官方API没有限制,如果你使用的是硅基流动提供的DeepSeek接口,那就要注意了。
硅基流动官方对于普通版DeepSeek-R1的限制是TPM值 10000,也就是每分钟最多使用10000个token。(Pro版DeepSeek-R1每分钟100万个,可以放心使用)
如果你提问时附带的资料就有15000个token,你猜你的问题还能成功发出去吗?
至于其他平台的API是否有这个限制,我暂时还没了解,大家实际使用时可以留意一下。
第四,匹配度的限制。
即便前面说的三个问题都不存在,也不是你想附带多少个片段都行的,因为还要考虑匹配度的问题,也就是下面要详细说的第二个参数。
我之所以没有按照设置界面从上玩下依次介绍,而是把匹配度阈值放在第二个说,就是因为它和上一个参数(请求文档分段数量)一起,决定了最终大模型能收到几个片段。
匹配度阈值也很好理解,它就是一个筛选标准,只有匹配度高于某个百分比的片段才有资格被提交给给大模型。
CherryStudio官方可能没有设置默认值,不过据我观察,有些匹配度只有30%多的片段也能被搜到,这种其实已经没有了参考价值。
这个参数的设置范围是0到1,0.1就是10%,0.5就是50%,1就是100%。这个相信大家都能理解。
一般情况下,匹配度阈值设置在70%(也就是0.7)比较合理。
但是,如果你的知识库资料不够多,设置70%可能导致一条都匹配不到。这时候可以适当降低标准,设置成60%或者50%。再低,参考价值就不高了,只会浪费token。
所以,因为有匹配度阈值,请求文档分段数量这个参数并不能完全决定最终提交给大模型的片段数量,而是它们两个共同决定的。
有些情况下,可能匹配到了10个符合匹配度阈值的片段,但是请求文档分段数量设置是6个,那就只选匹配度最高的6个提交给大模型。
有些情况下,虽然设置的请求文档分段数量设置是10个,但是只匹配到了3个符合匹配度阈值的片段,那就只把3个片段提交给大模型。
分段的问题,之前已经介绍过,相信大家都已经理解了。不理解什么是分段、为什么要分段的朋友,继续补课:
泼冷水:CherryStudio+本地知识库,没你想的那么简单
分段大小指的就是每个片段的字数多少。这个参数,官方不建议修改,我也不建议修改。
因为分段太大,信息虽然可能更完整,但也可能附带一些无用的信息,影响大模型分析判断。
分段太小,搜索命中可能更精准,但也可能丢失一些信息,导致大模型判断不准。
很多嵌入模型会有一些智能化的算法,根据不同的文件类型和内容,自动调整片段长度。
另外,不同的嵌入模型,对于每个片段的长度要求也是不一样的。如果你设置的分段大小超过了嵌入模型的最大值,嵌入时必定会出问题。
所以,分段大小这个参数建议不要自己设定。
重叠大小,和分段大小也有关系。
如果分段时过于简单粗暴,只是按照500每段的长度直接拆分,可能有很多句子、段落都会被从中间直接拆断,造成信息不完整。
为了解决这个问题,就允许相邻的两个片段,结尾和开头部分,有一定的内容重复,也就是重叠,这样就能减少有些句子被拆分的可能,在一定程度优化分拆效果。
在CherryStudio里,如果你想设置重叠大小的数值,那你就必须先设置分段大小。
因为刚才我们并不建议自己设置分段大小,所以,重叠大小这个参数,也不建议自己设定。
既然这两个值都没有设置,那也就可以忽略官方的提醒“分段大小和重叠大小修改只针对新添加的内容有效”。
以上详细介绍了CherryStudio知识库的设置问题,需要注意的是,每个知识库的设置是相互独立的,仅对当前知识库有效。不同的知识库,可以根据需要分别设置。
如果你想提升本地知识库的使用效果,可以看一看我之前关于知识库优化的两篇教程:
即将发布的《知识库优化之路(三)》里,我会从嵌入模型选择的角度,探讨如何提升优化知识库的使用效果。
如果你想继续关注这个话题,或者想了解其他关于AI的基础知识、应用技巧、工具教程,可以关注本账号“AI的回响”,我们一起学习交流!
<完>
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-04
从传统到智能:律师使用AI完成建设工程合同草拟的全流程解析
2025-04-04
Deepseek与法律专业大模型深度拆解——基于合同生成应用场景
2025-04-04
AI知识库:数据筑基与智能跃迁
2025-04-03
DeepSeek本地部署对于中小学教育的意义:低成本、高效率、安全地让教育数据“活起来”
2025-04-03
企业接入大模型的真实账本:被忽略的3个决策逻辑
2025-04-03
【避坑血泪史】80次调试!我用Dify爬虫搭建个人知识库全记录
2025-04-01
智能时代的知识管家:一个基于DeepSeek、Dify和Elasticsearch的知识库系统诞生与启示
2025-04-01
零代码搭建本地知识库:FireCrawl爬取+CherryStudio构建实战指南
2024-09-14
2025-01-23
2024-07-10
2024-11-07
2025-02-17
2024-04-24
2024-08-04
2024-06-23
2024-05-15
2024-07-10
2025-03-22
2025-03-17
2025-03-11
2025-03-09
2025-03-05
2025-03-01
2025-02-20
2025-02-17