我要投稿

KBS｜开放世界中的知识图谱实体嵌入

发布日期：2024-05-10 22:42:03 浏览次数： 2580

作者：ZJUKG

微信搜一搜，关注“ZJUKG”

论文题目：Distributed Representations of Entities in Open-World Knowledge Graphs

本文作者：郭凌冰（浙江大学）、陈卓（浙江大学）、陈矫彦（曼彻斯特大学）、张溢弛（浙江大学）、孙泽群（南京大学）、伯仲璞（蚂蚁集团）、方尹（浙江大学）、刘小泽（普渡大学）、陈华钧（浙江大学）、张文（浙江大学）

发表期刊：Knowledge-Based Systems 2024

论文链接：bit.ly/3PY3BhV

代码连接：bit.ly/49D1dE5

欢迎转载，转载请注明出处

一、引言

知识图谱一直在许多数据驱动的应用中发挥着重要作用，与词嵌入编码词之间的关系相似，知识图谱嵌入旨在把实体间的关系编码到低维向量中。现有的知识图谱嵌入方法与词嵌入方法还有着更多的相似点，如下图所示：左图中的知识图谱与句子蕴含了等价的信息，基于三元组的知识图嵌入模型（如TransE）将每个头实体及其关系的嵌入转换为隐向量，随后用于预测图中的中心实体W3C。这种行为与词嵌入中的Skip-gram模型十分相似，即每个单词的嵌入分别用于句子的中心词。对于基于图神经网络（GNN）的知识图谱方法，它们都是聚合W3C及其邻居的嵌入来获得输出嵌入。这种操作类似于词嵌入中的CBOW模型，但CBOW并不涉及输入实体（即）本身。

二、背景

在编码关系信息时，聚合邻居信息的同时是否应当考虑输入实体本身？本文认为答案应当是否定的。以实体为例，在传统知识图谱表示学习中，其相关信息都以三元组的形式呈现，并不包含文本信息。因此，若在聚合过程中去除自身实体并不会损害信息的完整性。对于实体附有图像和文本等属性的场景，现有的多模态方法通常会分别编码不同模态的信息，再通过融合层将输出嵌入合并。因此，编码关系信息时排除自身实体在理论上是可行的。

基于上述分析，本文提出了一种分散注意力网络（Decentralized Attention Network，DAN），即实体的关系信息仅分布在其邻居嵌入中。DAN保留了完整的关系信息，并适用于编码新实体的嵌入。例如，如果W3C是一个新实体，可以基于它与现有实体（如Tim Berners-Lee、RDF和XML Schema）的关系来计算其嵌入。相比之下，现有方法还需要依赖W3C的嵌入，这限制了它们为新实体生成嵌入的能力。

三、方法

3.1 分散注意力网络

下图展示了分散注意力网络（DAN）的设计思路和实现：

图a. 在单层分散注意力网络中，首先使用单独的聚合层来获取基于邻居嵌入的上下文信息（第1-2步）；接着再使用该上下文作为查询向量来对邻居评分（第3步）；最后使用得到评分来加权聚合邻居嵌入以获得最终的输出（第4-5步）。
图b. 在多层分散注意力网络中，首先使用第k-1层的的嵌入作为查询向量来评分第k-2层的邻居的嵌入（第1步）；随后用得到的注意力分数来聚合第k-2层的邻居嵌入，以获得第k层的嵌入（第2-3步）；类似地，使用第k层的的嵌入作为查询，来评分第k-1层的邻居的嵌入，用得到的注意力分数来聚合第k-1层的邻居嵌入，这样就获得了第k+1层的的嵌入（第4-6步）。

3.2 自蒸馏模块

为使分散注意力网络学习如何把实体信息分布到其邻居上，本文提出了一个自蒸馏模块，如下图所示：

该模块的设计理念在于令分散注意力网络的输出嵌入从原始输入向量中提取有用信息。以为例，其输入、输出嵌入分别用黄色和橙色表示。虽然其输入嵌入并不直接参与到输出嵌入的生成，但该嵌入会参与W3C邻居的输出嵌入的生成，如生成Tim Berners-Lee、RDF的输出嵌入。因此，W3C的输入嵌入在梯度更新过程中也会包含其邻居的信息。一个理想的分散注意力网络所输出的W3C的嵌入，至少应当包含其输入嵌入所学到的信息。因此，通过自蒸馏模块，分散注意力网络能够学习到如何从邻居向量中提取信息并输出，这对于新实体来讲尤为重要。