AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Dify知识库搭建秘籍:为你的智能应用注入灵魂

发布日期:2025-02-24 13:09:10 浏览次数: 1991 来源:一深思
推荐语

掌握Dify搭建知识库,让你的智能应用更懂你。

核心内容:
1. Dify知识库的创建和配置
2. 知识库添加文件和文本处理技巧
3. 通用与父子分段模式的适用场景与设置

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

在结尾的扩展挑战里,提到了 「2.  “上下文”添加爆款文案材料,让输出更具质量和稳定性」
为了把这案例打得更透更深,激发大家更多的兴趣,这期我们就来看看怎么为应用添加上下文语料,即怎么为你的智能应用注入个人经验和灵魂。
一)添加上下文
添加上下文,弹出“选择引用知识库”。
因此,需要先完成Dify知识库的创建和配置。
二)创建知识库
1. 创建知识库,在弹出页面左下角点击“创建一个空知识库”,如“网络发疯文学”;作为网络发疯文学相关的知识存储。
2. 添加文件-选择本地文件上传,将本地的知识导入进来。
选中文件打开后,点击下一步;
3. 文本分段与清洗
为了优化LLM检索效率与回答精准性,dify提供了“通用”和“父子”两种分段方式,通过合理的分段大小帮助模型准确找到与问题最相关的内容。它们分别适应不同类型的文档结构和应用场景。
  • 通用分段模式:适用于需要根据关键词与知识库中各内容分段的相关度来选取最相关的内容分段的场景。

    在这种模式下,用户需要设置文本的分段规则,包括:

    - 分段标识符:默认是\n,即按文章段落分块;

    - 分段最大长度:指定分段内的文本字符数最大上限,超出该长度时将强制分段。默认值为500 Tokens,最大上限为4000 Tokens。(中文中,1个token大概是1~1.8个汉字)

    -分段重叠长度:段与段之间存在一定重叠部分,建议设置为分段长度Tokens数的10-25


  • 父子分段模式:适用于文本量较大,内容清晰且段落相对独立的文档。

    这种模式下,每个段落视为父分段,子分段文本在父文本分段基础上,由分隔符规则切分而成。支持的设置项包括:

    - 分段标识符:默认值为\n,即按照文本段落分段。

    - 分段最大长度:指定分段内的文本字符数最大上限,超出该长度时将强制分段。默认值为500 Tokens,分段长度的最大上限为4000 Tokens。

    - 全文:不进行段落分段,而直接将全文视为单一父分段,适用于文本量较小,但段落间互有关联,需完整检索全文的场景。


此外,父子分段模式还支持使用文本预处理规则来过滤知识库内部分无意义的内容,如替换连续的空格、换行符和制表符,删除所有URL和电子邮件地址等。

由于要导入的文档较小,选用的是「父子分段+全文」的方式。

选择好之后,点击“预览块”,此时发现报错Default model not found for ModelType.TEXT_EMBEDDING”。

三)Embedding模型配置
Embedding模型是把文字等信息转换成计算机能懂的数字向量的技术。它能让机器理解词义和语境,比如在搜索时找出意思最接近的结果。
上面报错意味着Dify无法定位到所需的模型定义文件。怎么解决呢?
3.1 安装模型:采用Ollama安装的方式
ollama pull nomic-embed-text:latest
3.2 成功安装后,进行dify模型配置
“设置-模型供应商-Text Embedding”输入对应的模型名称和 Ollma URL,点击“保存”。
模型列表这里,可以看到是否添加成功。

此时,回到知识库数据处理页面,点击“预览”,可见分段结果。
检索设置可以先按默认的向量检索。至此,就完成了文档的上传,等待向量化完成即可。
此时,再回到文章一开始的应用下,点击添加上下文,即可看到刚生成的知识库,点击“添加”。
设置查询变量,例如选择“场景”进行查询后生成回复。
四)效果验证
1. 知识库是否关联应用
2. 模型是否有利用知识库学习后输出
点击模型调试的日志,看到前后思考过程的对比:
- 引入前的输出
哇塞!这世界真是乱啊!???"风中和凌乱}""凌乱到混乱",反正乱!混乱的风中和混乱,混乱的混乱里和混乱!混乱还是混乱,混乱在哪儿都混乱!✨✨✨这乱得离谱的好事不看后悔! unserialize系列第三弹来啦!#凌乱到混乱 #混乱的风

- 引入后的输出:

在风中飞舞的不仅仅是蝴蝶,还是我的心跳声~风中狂野,心随风飘,仿佛置身于一个充满魔力的世界!"疯了才能听见内心的声音" ?每一片落叶都是故事的开始,每一次转身都是命运的转折点!#疯点到我 #疯狂的风中生活 #风中的狂想曲

是不是还挺有意思的,大模型的创造力就像是一个待你开挖的金矿!写到这里忽然想到,后面我们可以出一期研究怎么把每次输出的高质量内容,反向输入给应用,实现强化学习。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询