微信扫码
与创始人交个朋友
我要投稿
大模型和知识图谱的结合是一个非常有前景的研究方向,但同时也面临着一些挑战和问题。在前一篇文章(点击可跳转)中,已经分析了当前市面上主流KG-RAG知识库产品存在的问题(详见章节:我看到的KG-RAG知识库产品存在哪些问题?)这篇是一个延伸的思考,顺带提出我的一个观点:不看好当下通用大模型和通用知识图谱的组合。
先说结论:
目前大模型和知识图谱的组合按照优势顺序排列:
1.(Top)通用大模型 + 领域知识图谱
2.(一般)通用大模型/垂直大模型 + 领域知识图谱
3.(Any)大模型 + 通用知识图谱
观点说明:
大模型和知识图谱的组合需要能互补各自的优势,创造出更符合业务场景需求、为客户降本增效的系统,为此我们尝试从以下三个关键角度进行分析:
1. 面向业务自动建模
想利用好图谱就需要先构建好高质量的图谱,而构建图谱在以前面临着成本高、构建周期长、且不易调整的挑战,大模型的出现为自动化建模和知识抽取提供了可能,最近微软的GraphRAG采用了一种结合文档之间关联、文档内实体关系的图谱自动构建方法。
这种方法在一些人文类、社会新闻等数据上会有较好的效果,对于我们企业内知识管理需求来说,大模型对通用知识图谱的抽取,会带来大量噪声和无关信息,从而对业务关注的知识造成污染。比如考虑这样一条评论:“这个耳机音质还不错,但是送货太慢了,整整等了一周!而且快递员态度很差,害我错过了女儿的钢琴表演。”,如果不加约束的抽取,可能会得到:“评论者有一个女儿”,“女儿会弹钢琴”之类与产品知识图谱无关的知识,这就是为什么只有与领域知识图谱结合,才能更好地解决业务需求。
其次为什么优先选用Top通用大模型,经过测试比较,Top通用大模型在捕捉业务领域的概念和关系上,拥有更加准确的结果。以往的图谱建模工作一般都会需要领域业务专家与图谱专家共同参与搭建,这需要花费大量的时间和不同话语体系之间的不断磨合,绝大多数项目实际交付情况是真正的专家没时间参与,图谱搭建好之后,最多让专家提些意见就进入下一环节。
作为超越人类信息理解处理水平的最优秀的大模型,在面向业务需求的自动化图谱建模工作上,拥有不输传统建模手段的优势。这点在Feliz AI的KG-RAG知识库中已经被采用。同时支持对图谱结构的动态调整,以适应业务需求的迭代。
2. 解决知识消歧问题
这点是很多结合知识图谱的RAG产品都忽略或者回避的问题,在微软的GraphRAG中我们看到有在探索一种非破坏性的方案。
在领域知识图谱中,由于其高度行业化和专业化的知识结构,确保了知识的消歧可以有更精确的上下文理解、专业术语辨识和细粒度区分的能力。再结合第一点如果没有面向业务自动建模,那么需要处理的歧义知识会更多,通用知识图谱在消歧的难度和最终可用度上,均存在一定的劣势。
因此在领域知识图谱内可以更好地解决业务知识消歧的问题。
3. 节约模型调用成本
这点还是要单独拎出来说一下,相信从前面两段的介绍,应该能想象到领域知识图谱在企业项目的成本投入上有绝对的优势。这里我们还是截一张微软GraphRAG的GitHub主页的描述图,来侧面感受下。
这是OpenAI股东所拥有的特权,我等普通人和企业就不要想了。如果有构建KG-RAG系统需求的企业可以与作者联系,为知识密集型中小企业提供比你预想的更好一点的产品及服务。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-17
2024-07-11
2024-07-13
2024-08-13
2024-07-08
2024-07-12
2024-07-26
2024-07-04
2024-06-10
2024-04-10
2024-11-04
2024-10-10
2024-10-03
2024-09-27
2024-09-08
2024-09-05
2024-08-27
2024-08-24