微信扫码
与创始人交个朋友
我要投稿
这是关于 Dify & Coze 知识库分段新功能的深度探索,不容错过! 核心内容: 1. 旧知识库回答问题的不足 2. Anthropic 的上下文检索方案 3. Dify 上新的父子检索功能
前段时间,有用户在试用我们知识问答功能时
问了下面这个问题:生态保护红线内有限人为活动包括哪些?
我们系统回答的效果不好
随后我们检查了知识库并做召回测试,发现输入这个问题只能召回部分内容。
正确答案出自于下面这个文件及段落:
《自然资源部生态环境部国家林业和草原局关于加强生态保护红线管理的通知(试行)》
可以看出,上面这个问题要想回答好,需要结合上下文来回答,因为在答案的上一段提到了有限人为活动,和下面的答案内容没有直接的字眼关联起来。
按照RAG的流程,使用自动分段的话,会造成上下文割裂
而这个问题不结合上下文的话,很难召回全和回答好。
在阿里云百炼测试了下,发现也是回答不全
Anthropic 提出上下文检索
基于以上背景,想到Anthropic提出过上下文检索的方案
于是又回去复习一下之前写的内容:RAG技术落地的两个问题及应对策略
Anthropic分享RAG最佳实践,提到了一种新的文档分块的方式,因为传统的RAG系统有一个显著的限制:它们经常破坏上下文。
Anthropic提出通过在嵌入之前将块特定的解释性上下文附加到每个块之前(“上下文嵌入”)和创建BM25索引(“上下文BM25”)来解决这个问题,再结合重排序来降低检索的失败率。大家有兴趣可以看看他们的实验。
Dify知识库上新了父子检索功能
Dify v0.15.0 版本:在本次更新中,我们在 RAG 中引入了「父子检索」这一功能,为 LLM 应用提供更精确且全面的上下文检索策略:子块:将文档内容拆分成更小、聚焦的片段,用于精准匹配用户问题。父块:当子块匹配成功后,系统会同时检索包含这些子块的父块,补充更广泛的背景信息。
实测:采用整篇文档一个父块,其余全是子块效果更好。
扣子(coze)知识库按层级分段功能
按层级分段的意思是可以按照文档的一级标题、二级标题、三级标题进行分段。
拖拽调整层级结构: 通过拖拽操作,你可以调整段落或章节之间的层级关系和顺序。例如,将一个二级标题拖拽到另一个一级标题下,使其成为新的子章节,或者调整两个同级标题的顺序。
按照层级合并为切片: 你可以右击层级标题,选择合并为一个分段,将选定层级及其子层级的所有内容合并为一个分段。例如,选择一个二级标题,系统会将其下的所有三级标题和对应内容合并为一个完整的分段。
删除切片: 右击层级标题或分段内容,选择删除,从知识库中移除选定的分段及其所有内容。例如,如果某个章节不再需要,可以直接删除对应的分段,包括其下的所有子层级。
还是以《自然资源部生态环境部国家林业和草原局关于加强生态保护红线管理的通知(试行)》文件为例进行上传。
上传好以后,构建一个问答应用进行测试,效果如下:
可以看到,扣子的按层级分段也能比较好的解决这个问题。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-23
北航团队发布XRAG-Ollama! 基于Ollama的XRAG本地化部署与实验基准框架:让你的RAG实验与分析更加简单
2025-01-22
一篇大模型GraphRAG最新综述
2025-01-22
阿里通义等提出Chronos:慢思考RAG技术助力新闻时间线总结
2025-01-22
RAG系统里的查询构建技术:解锁高效数据检索的密码
2025-01-21
深度解读:高级 RAG 技术的进阶之路
2025-01-21
基于23ai新特性和开源框架实现GraphRAG
2025-01-21
Claude 3.5 +LlamaIndex+Milvus,六步教你搭建Agentic RAG
2025-01-20
选择合适自己的检索增强生成(RAG)技术:综合指南
2024-07-18
2024-09-04
2024-05-05
2024-06-20
2024-07-09
2024-07-09
2024-05-19
2024-06-13
2024-10-27
2024-07-07