微信扫码
添加专属顾问
我要投稿
1. 动机
知识图谱中的实体既可以是现实世界中对象,也可以是抽象的概念,实体间的关系也提供了大量的知识。然而现实世界的知识图谱存在不完备性,意味着知识图谱中存在着未涵盖或未完整表示现实世界知识的情况,即使已经包含了大量的信息和关系,仍然存在一些未被收录或未被充分描述的实体、关系或属性。近来,学者们开始将语言模型(LMs)应用于知识图谱补全(KGC)任务。目前基于LMs的方法仅依赖于从LMs参数中提取的信息,忽略了知识图谱本身拥有的领域实体的一些信息,而知识图谱中的结构和语义信息对于预测缺失的节点是有帮助的。且通常需要对所有可能的候选节点排序,是计算开销大的过程。
为此本文提出了一种生成式图补全方法,该方法结合了语言模型和图邻域信息,以提高知识图谱中缺失链接的预测能力。与传统的知识图谱补全方法不同,不需要计算密集的知识图谱嵌入,而是直接利用语言模型参数和图邻域信息。这种方法不仅避免了对所有可能的候选节点进行排序的计算开销,而且能够更好地捕捉知识图谱中的结构和语义信息。还提出了一种新的邻域选择策略,可以根据节点的重要性和相关性动态地选择邻域,更好地表示图节点。
2. 贡献
3. 方法
对于给定的知识图谱G,通过一个简单的模板转换将其三元组(头实体,关系,尾实体)转化为文本序列,目的是将结构化的知识图谱数据转化为自然语言文本,以便于后续的语言模型处理。例如将三元组(Steve Jobs,place of birth,?)转化为“predict Steve Jobs place of birth”。
其次对每个三元组通过遍历知识图谱中与头实体直接相连的边,从G中提取与头实体相邻的一跳邻居,形成一个邻域集合,获取头实体的上下文信息,以便于后续的预测。
3.3 排序邻域集合
根据邻居三元组中的关系与查询三元组中的关系的语义相似度,通过计算关系向量之间的余弦相似度,对邻域集合进行排序,选择最相关的邻居作为输入的上下文信息。目的是选择与查询最相关的上下文信息,以提高预测的准确性。
3.4 生成尾实体的文本序列
使用基于T5的Transformer模型,将查询三元组和邻域集合作为输入,直接生成尾实体的文本序列作为输出。目的是生成尾实体的文本序列,以便于后续的实体链接。
3.5 寻找对应的实体
通过一个实体链接模块,根据输出序列在知识图谱中寻找对应的实体,作为补全的结果。如果是归纳性的知识图谱,可能需要生成之前未见过的实体。这一步是来完成的,目的是将生成的文本序列链接到知识图谱中的实体。
4. 实验
5. 总结
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-23
详解Palantir本体中的地理位置数据
2025-11-20
Context Engineering:Weaviate构建智能体系统的完整指南
2025-11-17
基于递归抽象树检索技术构建反洗钱知识库的探索与实践
2025-11-14
本地知识库搭建(Mia VS cheer studio VS AnythingLLM)
2025-11-13
用 Cognee 构建端到端知识图谱,实现当前效果最好的AI Agent记忆层
2025-11-13
如何使用 Knowledge Graph 和 LLM 构建构建问答系统
2025-11-05
企业级AI独角兽Glean揭秘知识图谱增强大模型:企业AI的关键基石,重新定义智能系统的上下文理解
2025-10-30
一篇文章讲清楚:Ontology为什么是企业落地Agent的关键
2025-09-02
2025-08-28
2025-08-26
2025-08-30
2025-08-28
2025-09-17
2025-09-03
2025-08-25
2025-09-02
2025-09-01