微信扫码
和创始人交个朋友
我要投稿
1. 动机
知识图谱中的实体既可以是现实世界中对象,也可以是抽象的概念,实体间的关系也提供了大量的知识。然而现实世界的知识图谱存在不完备性,意味着知识图谱中存在着未涵盖或未完整表示现实世界知识的情况,即使已经包含了大量的信息和关系,仍然存在一些未被收录或未被充分描述的实体、关系或属性。近来,学者们开始将语言模型(LMs)应用于知识图谱补全(KGC)任务。目前基于LMs的方法仅依赖于从LMs参数中提取的信息,忽略了知识图谱本身拥有的领域实体的一些信息,而知识图谱中的结构和语义信息对于预测缺失的节点是有帮助的。且通常需要对所有可能的候选节点排序,是计算开销大的过程。
为此本文提出了一种生成式图补全方法,该方法结合了语言模型和图邻域信息,以提高知识图谱中缺失链接的预测能力。与传统的知识图谱补全方法不同,不需要计算密集的知识图谱嵌入,而是直接利用语言模型参数和图邻域信息。这种方法不仅避免了对所有可能的候选节点进行排序的计算开销,而且能够更好地捕捉知识图谱中的结构和语义信息。还提出了一种新的邻域选择策略,可以根据节点的重要性和相关性动态地选择邻域,更好地表示图节点。
2. 贡献
3. 方法
对于给定的知识图谱G,通过一个简单的模板转换将其三元组(头实体,关系,尾实体)转化为文本序列,目的是将结构化的知识图谱数据转化为自然语言文本,以便于后续的语言模型处理。例如将三元组(Steve Jobs,place of birth,?)转化为“predict Steve Jobs place of birth”。
其次对每个三元组通过遍历知识图谱中与头实体直接相连的边,从G中提取与头实体相邻的一跳邻居,形成一个邻域集合,获取头实体的上下文信息,以便于后续的预测。
3.3 排序邻域集合
根据邻居三元组中的关系与查询三元组中的关系的语义相似度,通过计算关系向量之间的余弦相似度,对邻域集合进行排序,选择最相关的邻居作为输入的上下文信息。目的是选择与查询最相关的上下文信息,以提高预测的准确性。
3.4 生成尾实体的文本序列
使用基于T5的Transformer模型,将查询三元组和邻域集合作为输入,直接生成尾实体的文本序列作为输出。目的是生成尾实体的文本序列,以便于后续的实体链接。
3.5 寻找对应的实体
通过一个实体链接模块,根据输出序列在知识图谱中寻找对应的实体,作为补全的结果。如果是归纳性的知识图谱,可能需要生成之前未见过的实体。这一步是来完成的,目的是将生成的文本序列链接到知识图谱中的实体。
4. 实验
5. 总结
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-02
2024-07-17
2025-01-03
2024-07-11
2024-08-13
2024-07-13
2024-06-24
2024-08-27
2024-06-10
2024-07-12
2025-02-13
2025-01-14
2025-01-10
2025-01-06
2025-01-02
2024-12-16
2024-12-10
2024-12-04