微信扫码
添加专属顾问
我要投稿
探索AI技术在知识产业的颠覆性应用,RAGFlow与知识图谱的结合如何突破传统限制。核心内容:1. LLM和RAG的结合在知识产业中的潜力与挑战2. 传统RAG在构建知识库时面临的三大核心问题3. RAGFlow和Deepseek如何优化知识检索与应用
人们对 LLM + RAG 的期望其实是很高的,认为它可能会颠覆知识产业。
从逻辑上讲,这么想是有些道理的,LLM已经吃进去了互联网上所有的公开数据,而RAG机制则构建了动态的知识增强回路,相当于学到了数据里面所表示的知识,自然可以解答信息或知识层面的「任何」问题,理论上似乎是确实能端到端地做掉的。
但是从另一方面来说,知识的运用远非简单的数据检索游戏。
如果只是把一堆文件扔给学生,而不教给他们如何理解和分析,他们真的能找到问题的答案吗?
用RAG搭建过知识库就知道,在使用RAG搭建知识库的时候,整个索引、检索是基于文本块的,当有请求过来的时候,RAG首先根据请求去寻找哪些文本块是最相关、最匹配的,再把找到的文本块作为参考资料,连同请求一起给到大模型。
这种流程是极度依赖于基于相似度的向量检索技术,存在几个核心问题:
对应以上核心技术问题就会导致两个很普遍的现象:
知识图谱是对现实世界实体及其关系的结构化表示。它们由两个主要部分组成:节点和边。节点表示独立的实体,例如人物、地点、物体或概念。而边则表示节点之间的关系,表示它们如何相互关联。
这种结构使 LLM 能够访问精确且与上下文相关的的数据,从而极大地提高了其生成信息丰富答案的能力,其核心优势在于:
捕捉复杂关系:知识图谱能够表示实体间的多层次、多类型关系。例如,在医疗领域,知识图谱可以表示“药物-疾病-症状”之间的复杂关联。
支持语义推理:基于图结构的遍历和推理能力,知识图谱能够回答涉及多跳关系(Multi-hop Reasoning)的复杂查询。例如在电影领域,知识图谱可以表示“演员-电影-导演”之间的关系。当用户查询“汤姆·克鲁斯主演的科幻电影有哪些?”时,系统可以通过图谱快速找到相关电影,如《碟中谍》系列。
将知识图谱(KG)引入 RAG 体系,就像为 AI 构建了一张清晰的“知识地图”。知识图谱能够表达实体之间的复杂关系,例如父子关系、朋友关系、因果关系等等,从而让 AI 不仅能够“查到”信息,更能够“理解”信息之间的逻辑,给出更准确、更智能的答案。从依赖自身到检索外部信息,再到利用知识图谱进行深度理解。
人物关系网络数据:社交网络中的用户关系、历史人物关系、家族图谱等。 企业级关系数据:公司结构、供应链、客户等之间的关系。 医学类数据:疾病、症状、治疗、药物、传播、病例等之间复杂关系。 法律法规数据:法律条款之间的引用关系、解释、判例与适用法律条 推荐系统数据:产品、用户、浏览内容、产品之间的关联、用户之间的关系等。
第二类是涉及复杂关系、语义推理和多步逻辑关联的查询,比如:
多跳关系查询:在华东区所有的门店中,哪个导购的消费者客单价最高? 知识推理查询:根据患者的症状和病史,推断可能的疾病并提供治疗方案。 聚合统计查询:在《三国演义》中,出场次数最多的人是谁? 时序关联查询:过去一年都有哪些AI大模型的投资与并购事件? 跨多文档查询:在《三体3》中,有哪些人物在《三体1》中出现?
RAGFlow的V0.16.0版本以后对内置的GraphRAG做了重构,并且目前支持轻量级别的LightRAG和GraphRAG两种框架。
GraphRAG利用图结构增强上下文关联性,适用于医疗、法律等复杂领域,LightRAG则强调轻量化和高效,能够显著降低延迟和计算成本。这里做一个实践记录与分享,实践略过了RAGFlow在window或者linux的安装步骤,需要的话可以留言,后面可以补充再出一篇安装教程。
RAGFlow 支持大多数主流 LLM平台,还支持使用 Ollama、Xinference 或 LocalAI 在本地部署 LLM,这里首先要添加并配置 LLM,点击页面右上角的徽标> 模特提供商:每个 RAGFlow 帐户都可以免费使用通义千问的嵌入模型text-embedding-v2,这里单击你所拥有的 LLM平台并相应地更新 API 密钥,deepseek也有:
如果是采用本地部署的模型的话,可以找到Ollama,配置对应的embedding和chat模型,Ollama的基础URL为:
http://host.docker.internal:11434
配置好后的模型列表,可以从“添加了的模型”这里看到:配置好后,打开系统模型设置,其中img2txt模型就是OCR模型:
正确配置知识库对于 AI 智能助手至关重要,选择错误的嵌入模型或块方法很容易导致聊天中出现意外的语义丢失或答案不匹配。在知识库配置中,RAGFlow 通过嵌入模型、解析方法、页面排名、自动关键词、自动问题、召回增强及 RAPTOR 策略等技术,提升检索和生成效果,其中:
往下翻到知识图谱部分,打开提取知识图谱,实体类型可以就选默认的,然后方法选择General,然后打开实体归一化和社区报告生成,其中,实体类型是知识图谱的重要组成部分。常见的实体类型包括:
实体归一化是指将不同表达方式的实体统一为标准形式。例如,“马云”可能在不同的文本中被表达为“Jack Ma”、“阿里巴巴创始人”等。实体归一化的目的是确保知识图谱中的实体具有唯一性和一致性,包括:
配置完数据库后,上传一条文件,然后点击开始解析:解析完后点击刷新,左侧会出现知识图谱菜单,点击进入查看建立好的知识图谱,其中每个深色的圆圈代表一个实体,实体之间的连线代表实体之间存在的关系。
外围淡色的圆圈代表实体组成的社区:
这里先来试一下检索,这是没有打开知识图谱的检索结果:
这是打开了知识图谱的检索结果:
然后,再测试一下,这个是没有带知识图谱的回答效果:
这个是带知识图谱的回答效果:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-10
超越 RAG:Memobase 为 AI 应用注入长期记忆
2025-03-10
milvus lite快速实践-了解RAG落地背后的机制
2025-03-09
为什么RAG系统要拥抱向量检索?揭示关键字检索的致命弱点!
2025-03-09
不要盲目再使用DeepSeek R1和QWQ这些推理模型做RAG了
2025-03-07
r1-reasoning-rag:一种新的 RAG 思路
2025-03-05
提高企业 RAG 准确性的分步指南
2025-03-05
DeepSeek-R1 x Agentic RAG:构建带"深度思考"开关的知识研究助理|深度长文
2025-03-05
通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统
2024-09-04
2024-10-27
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-03-05
2025-03-03
2025-03-02
2025-02-28
2025-02-24
2025-02-23
2025-02-15
2025-02-12