微信扫码
添加专属顾问
我要投稿
掌握企业知识库构建精髓,深度解析DeepSeek+ragflow的高级应用。 核心内容: 1. 常见知识库应用误区解析 2. 向量不确定性和内容丢失问题 3. ragflow团队与权限管理功能介绍
广东
和广西
这两个字在我们的认知里这两个词语是完全不一样的不管是哪个厂商,他们提供的都是应用平台,都具备一定的能力,但是这个能力,你能不能用上?用好是另一回事。
官方给了很多参数的调整,我们需要根据自己的文档不断地调整参数。找到适合自己文档的参数。
最最最重要的是,每家的文档和写作习惯和格式都不一样,也就是数据格式,没有标准,没法直接使用。
ragflow提供了不同场景的数据文档解析,但是你的文档一定是它的标准吗?
在误解一中已经提到了,知识库解决的是大模型不能更新的问题的,以及大模型上下文长度限制的问题。
不擅长根据A文档的格式模仿写出文档B,这是大模型干的事,如果行文固定,通过微调可以做到。
也不擅长进行文档总结。这也是大模型干的事。
备注:以下实验实在以下硬件条件上执行的,
CPU:14700KF
内存:64G
显卡:RTX3090
系统:win10
团队成员
是你邀请的人,有两个角色Invite
和Nomal
Invite
是邀请以后的状态Nomal
是被邀请人同意后的状态加入的团队
owner
加入的团队
那里就出现同意
和拒绝
的操作同意
以后,操作那里就变成了退出
强调了那么多,用途是什么?我们举个例子来说明下
在dify
是没有权限管理的,在dify中我们通过聊聊dify权限验证的三种方案及实现可以个人粒度的权限控制,但是没有角色的概念。
在ragflow
我们可以通过添加不同的维度的用户,来控制知识库的权限。
agent
使用在ragflow中,我们在发布的api外面套一层代理,就解决了所有的权限问题。
但是我们一般不会这么玩,既然使用了ragflow,那么我们会通过api功能化来抽取企业的知识,切片,向量、灌入ragflow。
在文档语言中支持四种,分别是
只有我
的时候,这个知识库归属于个人团队
: 团队的所有人员都能操作该知识库。需要注意的是有了权限可以删除的。用于嵌入块的嵌入模型。 一旦知识库有了块,它就无法更改。 如果你想改变它,你需要删除所有的块。
关于哪个向量模型比较好,大家可以参考下bge-m3-large
效果是最好的。bce-embedding-base_v1
的效果也不差。其实效果哪个好,综合一下各大云平台提供的嵌入模型就知道了。这个肯定是最有效的办法。
每个解析方法选中以后,都可以在右侧查看具体的说明。
通用分块支持格式为DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML。
此方法将简单的方法应用于块文件:
问答分块支持 excel 和 csv/txt 文件格式。
UTF-8编码
且用TAB
作分开问题和答案的定界符。未能遵循上述规则的文本行将被忽略,并且 每个问答对将被认为是一个独特的部分。
简历分块,支持的文件格式为DOCX、PDF、TXT。
在选择此分块方法后,ragflow
会将上传的简历解析成一个结构化数据。
手册仅支持PDF。需要调大tokens
我们假设手册具有分层部分结构。 我们使用最低的部分标题作为对文档进行切片的枢轴。 因此,同一部分中的图和表不会被分割,并且块大小可能会很大。
表格分块,支持EXCEL和CSV/TXT格式文件。
以下是一些提示:
TAB
。以下是标题的一些示例:
TAB
颜色(黄色、红色、棕色)TAB
性别(男、女)TAB'尺码(M、L、XL、XXL)
TAB
电话/手机/微信TAB
最高学历(高中,职高,硕士,本科,博士,初中,中技,中 专,专科,专升本,MPA,MBA,EMBA论文分块,仅支持PDF文件。LLM会将论文将按其部分进行切片,例如_摘要、1.1、1.2_等。
这样做的好处是LLM可以更好的概括论文中相关章节的内容, 产生更全面的答案,帮助读者更好地理解论文。 缺点是它增加了 LLM 对话的背景并增加了计算成本, 所以在对话过程中,你可以考虑减少‘topN’的设置。
书籍分块,支持的文件格式为DOCX、PDF、TXT。
由于一本书很长,并不是所有部分都有用,如果是 PDF, 请为每本书设置_页面范围_,以消除负面影响并节省分析计算时间。
法律文件分块,支持的文件格式为DOCX、PDF、TXT。
法律文件有非常严格的书写格式。 我们使用文本特征来检测分割点。
chunk的粒度与'ARTICLE'一致,所有上层文本都会包含在chunk中。
演示稿分块,支持的文件格式为PDF、PPTX。
每个页面都将被视为一个块。 并且每个页面的缩略图都会被存储。您上传的所有PPT文件都会使用此方法自动分块,无需为每个PPT文件进行设置。
单一文档,支持的文件格式为DOCX、EXCEL、PDF、TXT。
对于一个文档,它将被视为一个完整的块,根本不会被分割。
如果你要总结的东西需要一篇文章的全部上下文,并且所选LLM的上下文长度覆盖了文档长度,你可以尝试这种方法。
使用“标签”作为分块方法的知识库应该被其他知识库使用,以将标签添加到其块中,对这些块的查询也将带有标签。
使用“标签”作为分块方法的知识库不应该参与 RAG 过程。
此知识库中的块是标签的示例,它们演示了整个标签集以及块和标签之间的相关性。
此块方法支持EXCEL和CSV/TXT文件格式。
如果文件为Excel格式,则它应该包含两列无标题:一列用于内容,另一列用于标签,内容列位于标签列之前。可以接受多个工作表,只要列结构正确即可。
如果文件为 CSV/TXT 格式,则必须使用 UTF-8 编码并以 TAB 作为分隔符来分隔内容和标签。
在标签列中,标签之间使用英文 逗号。
不符合上述规则的文本行将被忽略,并且每对文本将被视为一个不同的块。
大部分的解析方法都可以选择标签库。
https://pan.baidu.com/s/1IjddCW5gsKLAVRtcXEkVIQ?pwd=ech7
1
。2
出现下拉操作,我们选择3
1
选择解析方法为Presentation
2
可以设置解析的页码,可以通过3
添加新的页面,过滤掉一些不想要的信息4
使用deepDoc做布局识别和OCR
,当然也可以用在线服务,如果ragflow是一张张的识别处理,都会同步给在线服务。5
这里相当于分组了,根据你的文档,进行分组,将上下文有关联的尽可能分到一个组里6
,我们可以利用大模型从每个块里提取指定的关键词,多路检索。所以会消耗一定的tokens。7
,这个看自己的需求吧8
9
使用同一份资料在不同的解析方法下看下最终的检索效果。
解析方法配置如下。
刚开始使用的硅基流动,报rate limiting,然后换本地,换其他
同样deepseek-r1:32b在各个平台上的速率。
硅基流动是限制的最狠的,根据每个月的消费金额不同限速。
怎么选,看大家的使用场景
PAPTOR
报 Fail to bind LLM used by PAPTOR一方面是开启的选项太多,特别吃内存和gpu。另一方面是平台的限流。
报下面的错误
[ERROR]Fail to bind LLM used by Knowledge Graph: **ERROR**: **ERROR**: HTTPSConnectionPool(host='dashscope.aliyuncs.com', port=443): Max retries exceeded with url: /api/v1/services/aigc/text-generation/generation (Caused by NameResolutionError("<urllib3.connection.HTTPSConnection object at 0x7f3c4c633ac0>: Failed to resolve 'dashscope.aliyuncs.com' ([Errno -3] Temporary failure in name resolution)"))
修改以后,还会出这个问题。
1
3
0.3
0.2
,如果你的文档关键词很确定,可以提高关键字词匹配的权重。要不然一个关键词在多个片段里出现的时候,会让你怀疑检索。4
知识库检索效果。
1
不要清空已有chunk,任务可以继续,否则会极其耗时docker崩溃以后把本机的软件都关闭下,同时开启ollama和 docker,特别吃资源,本地ollama响应速度又慢,这就很容易导致崩溃。
wls --update
,会让你先执行wsl --unregister docker-desktop
和wsl --unregister docker-desktop-data
然后docker镜像全部丢失,还得重新下一遍在docker-compose-base.yml
中 volumes
配置,ragflow都是用的逻辑卷,一旦执行了上一步操作,整个数据就没了,得重新注册,创建知识库等。
建议将数据映射到docker目录下的volumes
目录,比如./volumes/mysql/:/var/lib/mysql
最吃资源的是ragserver,其次就是es。
放一个知识库图谱的效果,
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-09
为什么RAG系统要拥抱向量检索?揭示关键字检索的致命弱点!
2025-03-09
不要盲目再使用DeepSeek R1和QWQ这些推理模型做RAG了
2025-03-07
r1-reasoning-rag:一种新的 RAG 思路
2025-03-05
提高企业 RAG 准确性的分步指南
2025-03-05
DeepSeek-R1 x Agentic RAG:构建带"深度思考"开关的知识研究助理|深度长文
2025-03-05
通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统
2025-03-05
本地部署DeepSeek R1 + Ollama + XRAG:三步搭建RAG系统,并解锁全流自动化评测
2025-03-05
Graph RAG 迎来记忆革命:“海马体”机制如何提升准确率?
2024-09-04
2024-10-27
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-03-05
2025-03-03
2025-03-02
2025-02-28
2025-02-24
2025-02-23
2025-02-15
2025-02-12