微信扫码
添加专属顾问
我要投稿
Dify v1.1.0 新版本带来革命性知识检索体验,元数据功能让效率翻倍。 核心内容: 1. 元数据过滤提升知识库检索效率 2. 元数据在 RAG 场景下的应用价值 3. 元数据过滤的操作流程及配置方法
今天,我们很高兴地宣布发布 Dify v1.1.0,并推出了以“元数据”作为知识过滤器的新功能。通过利用自定义的元数据属性,元数据过滤能够提升知识库中相关数据的检索效率和准确度。过去,用户只能在庞大的数据集中进行搜索,无法根据特定需求进行筛选或控制访问,难以快速锁定最相关的信息。而在引入元数据后,相当于给数据打上标签并进行归类,大幅度提高了检索的效率和准确性。对于在 RAG(检索增强生成)场景下需要管理海量信息的用户来说,元数据更是至关重要,因为它能帮助更有效地管理与访问信息。
元数据本质上就是“关于数据的数据”。它为主要数据提供了额外的背景或属性标签,使搜索和检索更加精确。例如,在文档管理系统中,元数据可能包括文档名称、作者、创建日期等。通过这些结构化信息,系统能够基于特定条件进行筛选,从而更准确地检索到相关内容。
元数据过滤能够显著提高 RAG 应用搜索的准确度,帮助用户快速定位所需文档并减少无关结果。它通过“访问控制”来强化数据安全,确保只有具备相应权限的用户才能查看敏感信息。除此之外,元数据过滤还能通过精确限定查询范围来优化搜索性能,提升效率并节省计算资源。在企业里,这种定制功能特别有用,不仅能让用户体验一下子提升,轻松在海量文档中找到想要的内容,操作起来更直观。
下面的示意图展示了不同访问控制之间的对比,说明了元数据过滤如何实现更细粒度的访问管理。示例中使用了三个过滤条件:privacylevel、uploader 和 update_date。通过调整 privacylevel,就能控制用户对 RAG 2.0 路线图的访问权限,从而让管理员精准地决定哪些用户可以检索或查看某些信息,在保证安全的同时提升数据访问效率。
简而言之,元数据就像一个智能的知识过滤器,通过在数据上增添上下文属性和访问控制,从而实现更智能、更安全和更高效的信息检索。尤其是在 RAG(检索增强生成)系统中,需要兼顾知识的隐私和相关性,元数据的重要性更是不言而喻。
用户可以在知识库中为文档添加并管理元数据。每个文档在创建时都会自动分配一些默认元数据(例如文件名、上传者、上传日期等)。用户也可以手动添加新的元数据字段,设置字段名称和数据类型,并对现有文档进行批量编辑或修改。通过这种给文档打标签的方式,能够为文档附加更多结构化信息,让后续的搜索与管理更加高效。
用户可以在 Chatbot 的「Context」部分,或在 Chatflow、Workflow 中的知识检索节点里找到元数据过滤的配置入口,从而基于元数据属性来精准筛选和检索信息。用户可选择自动或手动两种过滤模式。在自动模式下,系统会根据用户的查询自动提取并生成过滤条件;手动配置时,用户则可以根据元数据字段类型(如字符串、数值或时间)来设置过滤条件,并将多个条件之间的关系设置为 AND 或 OR。
我们目前支持三种类型的元数据:字符串、数值和时间,可根据实际场景灵活运用。下面是一些示例:
通过字符串元数据,可以过滤掉大量与查询不相关的信息,从而更精准地返回结果。例如,当用户搜索“项目报告”时,若文档携带“市场部”或“研发部”等元数据标签,就可在搜索中优先呈现这些标签相关的文档。
利用数值元数据,可以根据预先设定的标准来限制文档的访问权限。例如,用户只能检索到隐私级别高于某一阈值的文档,从而确保数据访问的安全和合规。
时间元数据能够区分文档的新旧版本。当内容被更新并重新上传时,通过时间过滤可以优先检索到最新版本。如果将上传者设置为同一用户,还可以方便地对多批次上传的不同版本进行对比测试,同时确保文档处理的一致性。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-10-27
2024-09-04
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07