微信扫码
与创始人交个朋友
我要投稿
1. 动机
知识图谱中的实体既可以是现实世界中对象,也可以是抽象的概念,实体间的关系也提供了大量的知识。然而现实世界的知识图谱存在不完备性,意味着知识图谱中存在着未涵盖或未完整表示现实世界知识的情况,即使已经包含了大量的信息和关系,仍然存在一些未被收录或未被充分描述的实体、关系或属性。近来,学者们开始将语言模型(LMs)应用于知识图谱补全(KGC)任务。目前基于LMs的方法仅依赖于从LMs参数中提取的信息,忽略了知识图谱本身拥有的领域实体的一些信息,而知识图谱中的结构和语义信息对于预测缺失的节点是有帮助的。且通常需要对所有可能的候选节点排序,是计算开销大的过程。
为此本文提出了一种生成式图补全方法,该方法结合了语言模型和图邻域信息,以提高知识图谱中缺失链接的预测能力。与传统的知识图谱补全方法不同,不需要计算密集的知识图谱嵌入,而是直接利用语言模型参数和图邻域信息。这种方法不仅避免了对所有可能的候选节点进行排序的计算开销,而且能够更好地捕捉知识图谱中的结构和语义信息。还提出了一种新的邻域选择策略,可以根据节点的重要性和相关性动态地选择邻域,更好地表示图节点。
2. 贡献
3. 方法
对于给定的知识图谱G,通过一个简单的模板转换将其三元组(头实体,关系,尾实体)转化为文本序列,目的是将结构化的知识图谱数据转化为自然语言文本,以便于后续的语言模型处理。例如将三元组(Steve Jobs,place of birth,?)转化为“predict Steve Jobs place of birth”。
其次对每个三元组通过遍历知识图谱中与头实体直接相连的边,从G中提取与头实体相邻的一跳邻居,形成一个邻域集合,获取头实体的上下文信息,以便于后续的预测。
3.3 排序邻域集合
根据邻居三元组中的关系与查询三元组中的关系的语义相似度,通过计算关系向量之间的余弦相似度,对邻域集合进行排序,选择最相关的邻居作为输入的上下文信息。目的是选择与查询最相关的上下文信息,以提高预测的准确性。
3.4 生成尾实体的文本序列
使用基于T5的Transformer模型,将查询三元组和邻域集合作为输入,直接生成尾实体的文本序列作为输出。目的是生成尾实体的文本序列,以便于后续的实体链接。
3.5 寻找对应的实体
通过一个实体链接模块,根据输出序列在知识图谱中寻找对应的实体,作为补全的结果。如果是归纳性的知识图谱,可能需要生成之前未见过的实体。这一步是来完成的,目的是将生成的文本序列链接到知识图谱中的实体。
4. 实验
5. 总结
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-15
大语言模型与图结构的融合:推荐系统中的新兴范式
2024-11-15
利用LLM构建非结构化文本的知识图谱
2024-11-13
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
2024-11-13
利用LLM Graph Transformer实现知识图谱的高效构建
2024-11-12
什么是知识图谱和AI多模态推理
2024-11-12
Graph Maker:轻松使用开源大模型将文本转为知识图谱,发现新知识!
2024-11-11
iText2KG:使用LLM构建增量知识图谱(KG)
2024-11-08
NebulaGraph 在中医药领域的应用:构建鼻炎知识图谱
2024-07-17
2024-07-11
2024-07-13
2024-08-13
2024-07-08
2024-07-12
2024-07-26
2024-06-10
2024-07-04
2024-06-24
2024-11-04
2024-10-10
2024-10-03
2024-09-27
2024-09-08
2024-09-05
2024-08-27
2024-08-24