我要投稿

为什么不看好通用大模型和通用知识图谱的组合

发布日期：2024-07-13 04:23:06 浏览次数： 2488 作者：bytechu

大模型和知识图谱的结合是一个非常有前景的研究方向，但同时也面临着一些挑战和问题。在前一篇文章（点击可跳转）中，已经分析了当前市面上主流KG-RAG知识库产品存在的问题（详见章节：我看到的KG-RAG知识库产品存在哪些问题？）这篇是一个延伸的思考，顺带提出我的一个观点：不看好当下通用大模型和通用知识图谱的组合。

先说结论：

目前大模型和知识图谱的组合按照优势顺序排列：

1.（Top）通用大模型 + 领域知识图谱

2.（一般）通用大模型/垂直大模型 + 领域知识图谱

3.（Any）大模型 + 通用知识图谱

观点说明：

大模型和知识图谱的组合需要能互补各自的优势，创造出更符合业务场景需求、为客户降本增效的系统，为此我们尝试从以下三个关键角度进行分析：

1. 面向业务自动建模

想利用好图谱就需要先构建好高质量的图谱，而构建图谱在以前面临着成本高、构建周期长、且不易调整的挑战，大模型的出现为自动化建模和知识抽取提供了可能，最近微软的GraphRAG采用了一种结合文档之间关联、文档内实体关系的图谱自动构建方法。

这种方法在一些人文类、社会新闻等数据上会有较好的效果，对于我们企业内知识管理需求来说，大模型对通用知识图谱的抽取，会带来大量噪声和无关信息，从而对业务关注的知识造成污染。比如考虑这样一条评论：“这个耳机音质还不错，但是送货太慢了，整整等了一周！而且快递员态度很差，害我错过了女儿的钢琴表演。”，如果不加约束的抽取，可能会得到：“评论者有一个女儿”，“女儿会弹钢琴”之类与产品知识图谱无关的知识，这就是为什么只有与领域知识图谱结合，才能更好地解决业务需求。

其次为什么优先选用Top通用大模型，经过测试比较，Top通用大模型在捕捉业务领域的概念和关系上，拥有更加准确的结果。以往的图谱建模工作一般都会需要领域业务专家与图谱专家共同参与搭建，这需要花费大量的时间和不同话语体系之间的不断磨合，绝大多数项目实际交付情况是真正的专家没时间参与，图谱搭建好之后，最多让专家提些意见就进入下一环节。

作为超越人类信息理解处理水平的最优秀的大模型，在面向业务需求的自动化图谱建模工作上，拥有不输传统建模手段的优势。这点在Feliz AI的KG-RAG知识库中已经被采用。同时支持对图谱结构的动态调整，以适应业务需求的迭代。

2. 解决知识消歧问题

这点是很多结合知识图谱的RAG产品都忽略或者回避的问题，在微软的GraphRAG中我们看到有在探索一种非破坏性的方案。