我要投稿

提取大模型的知识增强图神经网络

发布日期：2024-08-07 20:44:21 浏览次数： 3091

作者：大模型的艺术

微信搜一搜，关注“大模型的艺术”

摘要

图作为一种关键的数据结构，在社交网络分析、生物信息学和推荐系统等多个领域的内容分析中发挥了重要作用。节点分类是这一背景下的一个基本任务，通常使用图神经网络（GNN）来解决。不幸的是，尽管在现实应用中少量节点分类任务普遍存在，传统的GNN在标记节点较少的情况下仍面临挑战。为了解决这一挑战，已经提出了多种方法，包括图元学习、迁移学习和基于大型语言模型（LLM）的方法。然而，传统的元学习和迁移学习方法通常需要来自基础类的先验知识，或者未能充分利用未标记节点的潜在优势。同时，基于LLM的方法可能忽视LLM的零-shot能力，并且在很大程度上依赖于生成上下文的质量。在本文中，我们提出了一种新颖的方法，结合了LLM和GNN，利用LLM的零-shot推理和推理能力，并采用基于Graph-LLM的主动学习范式来增强GNN的性能。大量实验表明，我们的模型在使用极其有限的标记数据时提高了节点分类的准确性，显著超越了最先进的基线。

1 引言

图已经越来越被认为是执行现实世界内容分析的强大数据结构之一。它们擅长表示复杂关系并揭示不同领域对象之间的隐藏信息。

在各种图任务中，节点分类作为一个经典任务，具有广泛的应用，例如情感分析和用户属性推断。最近，图神经网络（GNNs）受到卷积神经网络（CNNs）思想的启发，在节点分类中展现出了强大的能力。一般来说，GNNs聚合邻域信息，类似于CNNs，但它们利用图的连接结构，促进了从标记节点到未标记节点的信息隐式传播。这一策略显著提升了在各种基准数据集上的性能。

尽管GNNs在节点表示学习和节点分类方面取得了巨大成功，但当标记数据稀缺时，它们往往难以有效地进行泛化。然而，在许多现实世界的应用中，由于标记成本和隐私问题等各种原因，通常需要用稀疏标签训练GNN分类器，这被称为少样本节点分类。例如，标记大量网页文档可能既昂贵又耗时；同样，在社交网络中，隐私问题限制了对个人信息的访问，导致属性标签的稀缺。因此，当面临这样的数据集时，GNNs可能会对未标记节点表现出较差的泛化能力。为了解决少样本学习问题，提出了各种方法，例如元学习、迁移学习和对抗重编程。然而，它们仍然需要每个类别中大量的标记节点才能取得令人满意的结果，或者需要辅助标记数据来提供监督。

最近，大型语言模型（LLMs）在零样本学习和推理方面展示了其卓越的泛化能力。已经有多个努力将LLMs引入图学习，例如对文本节点属性的预处理或将文本描述作为输入，利用LLMs构建图结构，以及生成新节点。例如，Chen等人首次利用LLMs作为注释者，为图学习提供更多监督。Yu等人利用LLMs的生成能力来解决少样本节点分类问题。这些工作表明，LLMs可以从不同角度增强GNNs。然而，它们通常仅将LLMs视为节点分类任务的注释者或生成器，忽视了其未被开发的潜力，例如揭示结果中的隐藏见解的能力以及其零样本推理能力，这可能显著提升GNNs在少样本学习任务中的表现。

在本文中，我们介绍了一种新颖的少样本节点分类模型，通过主动提取LLMs的知识来增强GNNs的能力。与之前的方法不同，我们的模型将LLMs作为“教师”，利用其零样本推理和推理能力来增强GNNs在少样本学习场景中的表现。然而，存在两个主要挑战：（i）LLMs无法始终为所有节点提供准确的预测。如何选择LLMs能够提供高质量标签的节点，以便最大程度地受益于GNN；（ii）如何有效地将知识从LLMs提取到GNNs。为了解决这些挑战，我们提出了一种基于主动学习的知识蒸馏策略，选择对LLMs有价值的节点，并弥合LLMs与GNNs之间的差距。这种方法显著提高了在标记数据稀缺时GNNs的有效性。我们首先探讨影响LLMs预测正确性的指标。然后，我们将LLMs作为教师模型，利用它们在有限的训练数据上进行操作，为训练节点生成软标签以及logits和推理。这些输出用于从两个角度监督GNNs的学习：概率分布和嵌入级别的特征增强。通过这种方式，GNNs可以学习未标记节点中的隐藏信息以及LLMs提供的详细解释。此外，我们引入了一种基于Graph-LLM的主动学习方法，以建立LLMs与GNNs之间的联系，有效选择GNNs无法提供准确伪标签但LLMs可以提供可靠伪标签的节点，从而使GNNs能够利用LLMs的零样本能力，并在有限数据下提升其性能。随后，所选的伪标签与真实标签合并，以训练最终的少样本节点分类模型。总之，我们论文的主要贡献包括：

我们分析了LLMs预测的正确性并进行

初步实验以探索影响LLMs预测正确性的指标。我们创新了一种半监督学习模型，通过从大型语言模型中提取知识并利用大型语言模型提供的增强推理来帮助GNNs提高其性能。我们设计并实现了一种基于Graph-LLM的主动学习
模式，以增强GNNs的性能。这是通过识别GNNs难以生成可靠伪标签的节点，而LLMs可以提供可靠预测来实现的，利用LLMs的零样本学习和推理能力来提升GNNs的性能。在各种基准数据集上的广泛实验
证明了所提出框架在节点分类任务中的有效性，即使在标记数据有限的情况下。

2 相关工作

在本节中，我们介绍相关工作，包括图神经网络、少样本节点分类、用于文本属性图的LLMs以及主动学习。

2.1 图神经网络

图神经网络（GNNs）因其有效利用图结构信息而受到广泛关注。GNNs主要有两种类型：基于谱的和基于空间的。Kipf和Welling提出了图卷积网络（GCN），该网络遵循卷积神经网络（CNNs）的思路，通过图卷积在谱域内聚合信息。与GCN不同，图注意力网络（GAT）和GraphSAGE则作为基于空间的方法出现。GAT应用注意力机制来学习在聚合信息时邻居的重要性。GraphSAGE随机采样节点的邻居数量，并从这些局部邻域中聚合信息。尽管GNNs在各个领域得到了广泛应用，但由于标记数据有限，它们常常面临挑战。当只有少量标记数据点可用时，现有的卷积滤波器或聚合机制难以有效地在整个图中传播标签。

2.2 少样本节点分类

在现实世界的图学习任务中，由于注释过程中的高成本或对节点信息的有限访问，获取高质量的标记样本可能特别具有挑战性。因此，研究人员提出了不同的方法来提高仅有少量标记数据的图神经网络（GNNs）的性能。最近在少样本节点分类（FSNC）模型方面的进展主要源于两种方法：度量学习和元学习。度量学习模型旨在学习一个适用于所有任务的任务不变度量，以促进FSNC。原型网络和关系网络是两个经典的例子，其中前者使用支持集的均值向量作为原型，并计算距离度量来对查询实例进行分类，而后者训练一个神经网络来学习查询集和支持集之间的距离度量。元学习模型使用任务分布进行元训练，学习共享的初始化参数，然后在元测试期间适应新任务。这些方法相比于度量学习表现出有效性，后者常常因任务分歧问题而苦苦挣扎。然而，元学习需要大量来自与元测试相同领域的数据进行元训练，从而严重限制了其实际应用性。与度量学习和元学习模型不同，在本文中，我们提出从大型语言模型（LLMs）中提取知识到GNNs，利用LLMs的零样本能力和推理能力来改善GNNs在少样本节点分类中的表现。

2.3 LLMs在文本属性图中的应用

最近，大型语言模型（LLMs）引起了广泛关注，并经历了快速发展，成为人工智能领域的热门话题。通过在大量数据集上进行训练，这些模型学会了理解和生成自然语言，在文本生成、问答、翻译以及更复杂的推理和创造性任务等多种任务中展现出卓越的能力。研究人员正在将大型语言模型（LLMs）整合到计算机视觉、时间序列分析和图神经网络（GNNs）等多个领域，扩展其在自然语言处理之外的适用性。

在图领域，LLMs在处理文本属性图（TAGs）方面展现了其通用性。Chen等人展示了LLMs在节点分类任务中的零样本能力。此外，LLMs还展示了其在提供理由以增强节点特征和构建图中边缘方面的能力。Liu等人进一步提出了OFA，将所有图数据编码为文本，并利用LLMs在不同任务上进行预测。尽管LLMs在理解文本方面表现出色，但在处理图结构数据时仍面临限制。因此，利用LLMs的零样本能力并将其与GNNs结合，已成为文本属性图学习中的最新最先进方法。

2.4 主动学习

主动学习（AL）是一种在各个领域广泛采用的方法，用于解决标签稀疏性的问题。其核心概念是从未标记数据池中选择最具信息量的实例。最近，许多研究将图神经网络（GNNs）与主动学习相结合，以提高图嵌入的代表性。然而，如何利用主动学习在大型语言模型（LLMs）和图神经网络之间建立联系并提高图神经网络的性能已成为一个问题。Chen等人首次利用主动学习在无标签设置下选择接近聚类中心的节点，并使用LLM作为注释者为这些节点创建标签。然而，他们的方法仅仅利用LLM对节点进行注释，忽略了未标记节点的优势以及LLM的零-shot推理能力。此外，在少量样本设置下，GNN本身可以为那些接近聚类中心的节点提供相对高质量的伪标签，如果我们使用LLM为这些节点生成伪标签，则会浪费资源。此外，之前的研究主要集中在主动学习过程中选择置信度最高的数据。在我们的工作中，我们并不专注于GNN具有高置信度的节点，而是优先考虑GNN在提供高置信度伪标签时遇到困难的节点，而LLM可以提供可靠的预测。这种方法的动机在于我们将LLM作为教师模型，以利用LLM的零-shot伪标签和推理能力来增强GNN的性能。通过主动学习，我们将LLM集成到GNN中，使LLM能够指导GNN处理GNN难以自信标记的数据。

3 初步研究

在本节中，我们进行初步实验，以揭示可能影响大型语言模型生成高质量伪标签的指标，并对问题进行表述。

3.1 符号

我们用表示一个图，其中是一个包含 ? 个节点的集合，是一组边。我们用表示邻接矩阵，其中表示节点和是连接的；否则。文本属性图可以定义为，其中表示原始文本的集合，可以编码为文本嵌入。在半监督学习中，节点集合可以分为两个不同的集合：（1）标记节点集合和（2）未标记节点集合。此外，我们用表示包含原始标记数据和通过主动学习选择的数据的标记节点集合，并用表示标签集合.

3.2 理解大型语言模型的能力

由于稀疏标签对图神经网络（GNN）带来了挑战，本文旨在赋予GNN大型语言模型（LLM）的零样本学习能力，从而提升其在标注数据有限的场景中的表现。然而，LLM可能在对某些节点进行分类时表现良好，而在其他节点上表现不佳。因此，识别LLM能够提供优质伪标签的节点是重要的，而这些节点的理由是GNN无法提供的，这可以更好地提升GNN的性能。因此，我们首先进行初步实验，以了解LLM在生成可靠伪标签时的关键指标。

LLM可能受益于多种指标，以良好地执行节点分类。特别是在图中，某些指标对LLM在节点上的预测正确性产生更显著的影响，这些指标包括：1）节点特征，例如引用网络中的标题和摘要；2）节点的度；3）同质性比率。正如实验所示，LLM可以在包含更丰富信息的节点上提供更好的分类结果。因此，我们决定利用LLM作为教师模型，从特征角度在嵌入层为GNN提供增强的理由以进行教学。然而，在使用主动学习识别有价值的节点时，我们主要依赖原始节点特征。节点的度和同质性比率对节点都很重要。前者表示有多少节点会受到一个节点的影响，而后者则表明该节点倾向于与具有相似特征的其他节点连接。因此，检查度和同质性比率如何影响LLM预测的性能至关重要。

我们进行初步实验，以了解这些因素如何影响LLM的分类性能。具体而言，我们使用以下公式计算同质性：

我们将度和同质性分为三个类别：最高、中等和最低，并为每个类别选择200个节点。具体而言，我们根据度和同质性比率按降序对节点进行排序，从节点列表的头部、尾部和中间均匀选择200个节点，分别对应最高、最低和中等类别。我们使用GPT-3.5-turbo进行测试。我们将原始文本和潜在类别提供给LLM，要求它们从给定类别中为分配一个标签。然后，我们比较LLM的结果和真实标签以进行评估。

我们的初步实验表明，LLM能够为具有更高同质性比率和更大度的节点生成高质量的伪标签，这为我们有效选择节点以查询LLM以获取高质量知识以增强GNN的知识铺平了道路。

3.3 问题陈述

由于大型语言模型（LLMs）无法为所有节点提供可靠的知识，本文研究了如何有效利用LLMs来增强图上少量节点分类性能的一个新问题。给定一个文本属性图，其中有一个非常有限的标记节点集（即）及其标签集，一个预算大小（注意预算大小是每个类别的节点数量），以及一个大型语言模型，我们的目标是训练一个图神经网络（GNN）模型，使其在仅有少量可用标记节点的情况下，通过在预算大小内查询来获得更好的性能。具体细节将在第4节中介绍。

4 提出的模型

尽管图神经网络（GNNs）在节点分类中表现出强大的能力，但普通的GNN在训练时缺乏标记数据时表现出较低的泛化能力。因此，为了增强GNN的泛化能力，我们提出了一个将GNN与大型语言模型（LLMs）集成的框架，并采用了一种新颖的基于Graph-LLM的主动学习策略，以主动从LLMs中提取知识。我们提出的模型使用GNN作为主干模型，利用LLMs的零-shot伪标记和推理能力，特别是对于那些GNN难以给出准确预测的节点。在这些情况下，LLMs可以提供可靠的伪标签并提供增强的推理，从而从不同的角度提高GNN的少样本学习能力。

框架的示意图如图2所示。具体而言，LLM作为教师模型，从两个不同的角度指导学生模型（GNNs）：(1) 它向学生模型传授“正确”的答案以及所有潜在类别的概率分布，利用其广泛的知识，这将通过输出logits来教导GNN；(2) 它解释其决策过程背后的推理，提供关于为何做出某些决策的见解，这将作为特征教师在嵌入层教导GNN。然后，从LLMs获得的知识将被提炼到GNN中，GNN将标签信息传播到所有未标记的节点。我们利用基于Graph-LLM的主动学习来识别GNN难以生成可靠伪标签但LLMs可以提供可靠预测的节点。这些选定的节点随后被添加到训练集，并带有伪标签，输入到LLMs以获取logits和推理，这可以在LLMs的指导下进一步增强GNN的能力。最后，我们训练最终的学生模型，利用有限的可用数据增强其泛化能力。接下来，我们详细介绍每个组件。

4.1 基础 GNN 分类器

由于 GNN 在半监督节点分类中展现了强大的能力，我们采用图神经网络（GNN）作为基础模型，这可以用来捕捉实体之间的结构信息，并自然地将信息高效地传播到所有未标记的节点。我们首先使用 SBERT 将原始文本编码为文本嵌入。然后，我们使用 GNN 在给定的图和这些嵌入上进行操作。具体而言，GNN 将图作为输入，并学习节点表示为

其中是来自 GNN 最后一层的节点表示矩阵。最终的预测结果可以计算为：

其中是图中所有节点的概率。用于训练 GNN 的损失函数将在 4.4 中介绍。

4.2 从大型语言模型获取知识

尽管图神经网络（GNNs）在处理图数据方面取得了成功，但在可用数据较少的情况下，GNNs的通用性仍然有限。为了解决这个挑战，我们引入大型语言模型（LLMs）作为教师模型，利用它们的零样本能力来指导GNNs进行分类任务，并提供这些决策背后的推理见解。通过这种方式，GNNs可以从LLMs中学习隐藏的标签分布信息和增强的特征信息，从而增强在稀缺标记数据下的能力。

为了有效地将知识从LLMs提炼到GNN中，我们考虑两种类型的知识：（1）软标签和logits；（2）LLMs决策过程背后的推理。软标签和logits揭示了未标记数据的隐藏分布信息，而推理则提供了更丰富的节点信息。这种组合使得GNNs能够从未标记数据中受益，并获得增强的节点特征。我们以两步方式提示预测和推理：首先，我们将原始文本输入到LLMs中，以生成带有概率分布的软标签和logits。然后，我们让LLMs解释它们做出这些决策的原因。提示的示例如表1所示。由于当提示包含多个任务时，LLMs可能会产生偏离所需格式的输出，从而增加解析过程中的不确定性，我们建议使用两个单独的提示来获取logits和推理。接下来，我们给出详细信息。

4.2.1 软标签和logits生成。

对于节点，我们提出的模型首先将原始文本输入到LLMs中，以生成类别X的软标签和所有可能类别的logits 。生成软标签和logits的提示示例如表1的第一行所示。我们利用LLMs的零样本能力生成相关的可靠软标签和logits，以便GNNs能够通过知识蒸馏利用未标记数据的隐藏信息。这可以正式写为

4.2.2 特征增强的推理。

传统的知识蒸馏方法主要利用教师模型的软标签和logits。然而，结合文本决策背后的推理可以显著增强GNNs的学习能力。在这种情况下，GNNs能够在嵌入层面从LLM中学习到更具信息量的特征。因此，我们引入LLMs作为特征教师，引导GNNs在决策过程中吸收更具信息量的特征。与之前的工作不同，后者将增强的嵌入与节点嵌入连接在一起或直接替换节点表示，我们将使用损失函数来最小化它们之间的差异，这将帮助GNNs在保留原始节点表示的同时学习增强的表示。损失函数将在4.3节中详细说明。

对于节点，LLMs将输出的分类结果，并详细解释决策过程。增强的解释可以表示如下：

理性依据的提示示例显示在表1的第二行。由于我们从大型语言模型（LLMs）获得的理性依据都是文本解释，我们进一步需要将它们转换为嵌入级别，以教导图神经网络（GNNs）更具信息量的特征。我们使用预训练的语言模型，如Sentence BERT (SBERT)，来获取的嵌入，表示如下：

其中表示第个理性依据的嵌入。

然而，由于的维度可能与GNNs最终层的维度不同，因此这些表示之间的对齐是必要的。虽然最小/最大池化可以有效地减少对齐目的的维度，但在池化过程中往往会丢失信息。为了保留这些理性依据中的丰富信息，我们使用有限标记节点集的文本嵌入及其对应的真实标签训练一个多层感知机（MLP），应用交叉熵损失函数。这个MLP的任务是对齐理性依据与GNNs最终层输出之间的表示，确保在对齐过程中保留有价值的信息。第个理性依据的最终表示生成如下：

其中是与GNNs中最终层输出具有相同维度的嵌入。

4.3 知识蒸馏到GNN

通过将来自大型语言模型（LLM）的知识表示为和，我们使用知识蒸馏来将这些知识蒸馏到图神经网络（GNN）中。通过这个过程，GNN可以利用输出的logits挖掘未标记节点背后的隐藏信息，从而提升其性能。此外，通过结合LLM生成的推理，它们可以实现更好的节点表示，进一步丰富所处理信息的深度和质量。具体而言，LLM作为一个预训练的教师模型，从两个不同的角度教导学生模型（GNN）：1）软标签和概率分布（logits），2）嵌入层的推理。

4.3.1 知识蒸馏的损失。设为包含原始训练数据和通过主动学习选择的数据的节点集合（将在第4.5节中介绍）。根据，对于每个，我们首先将LLM的logits 转换为：

其中是类别的数量，是知识蒸馏（KD）温度，用于控制教师知识蒸馏到学生模型的程度，是的第个元素。然后，学生可以通过优化以下损失函数来学习来自教师的蒸馏知识：

其中是GNN判断属于类别的概率。这增强了模型从未标记数据中获取洞察的能力，并提升其整体学习能力。

4.3.2 特征对齐的损失。我们还引入推理，从特征的角度在嵌入层增强节点表示。利用我们在4.2中获得的嵌入，均方误差（MSE）用于计算当前训练集中所有节点的推理与GNN最终层的节点嵌入之间的损失，如下所示：

通过采用这种方法，GNN从LLM中学习到有用的推理，从特征的角度增强其在嵌入层的学习能力。

4.4 提出的框架的目标函数

学生模型本身计算预测值与真实值（硬属性标签）之间的训练损失，定义为：

其中是指示函数，当时输出1，否则输出0。是标记或伪标记节点的集合，是的标签或伪标签。

通过从大型语言模型（LLM）进行知识蒸馏，我们提出的模型的最终损失函数可以形式化为：

其中和都是平衡参数，用于调整知识蒸馏损失和特征嵌入损失的相对权重。

4.5 基于图-LLM的主动学习

为了进一步提高图神经网络（GNNs）的少样本学习能力，我们引入了一种新颖的基于图-LLM的主动学习策略，以选择对LLMs有价值的节点，并将其迭代地添加到训练集中。我们旨在选择个节点，这些节点在分类结果中表现出GNNs的低置信度，但LLMs可以基于其固有知识提供高质量的伪标签。通过迭代选择，我们逐步增强GNNs的能力。

如第3节中所示的初步实验结果所示，LLMs展示了为具有更高同质性比率和更多度数的节点生成高质量伪标签的能力。因此，我们定义了一种评估指标，结合GNN预测的置信度分数、同质性比率和度数，以评估未标记节点集中的节点是否对我们提出的模型有价值。评估指标定义如下：

其中表示第个节点的评估分数，（即），和分别表示第个节点的输出置信度分数、同质性比率和度数。RS 表示用于计算每个评估指标分数的排名函数。具体而言，我们根据评估指标结果按升序排列节点，排除，并分配从0到1的分数，步长为。请注意，RS 按降序为分配分数，优先考虑GNNs无法生成可靠伪标签的节点。

考虑到某些节点在图中可以更好地促进标签传播和模型改进，我们希望添加一个指标来评估节点的重要性，以便选择最有价值的伪标签。在这里，我们利用邻域熵减少来评估给定节点的重要性。具体而言，对于候选集中的每个节点，我们通过从节点集中移除来计算邻居的softmax向量中的熵减少，包含及其邻居。基本直觉是，当一个节点能够显著改变其邻域内的不确定性（熵）时，它更具信息性。换句话说，熵的变化越大，节点就越重要。然后，我们根据熵的变化对这些节点进行排名并分配分数。熵变化的分数定义如下：

其中是第的熵变化分数，表示熵函数，表示来自GNNs的伪标签，基于节点的logits向量和激活函数计算。因此，第的最终评估指标为：

在每个阶段，我们选择具有高的有价值节点子集，每个子集由每个类别的个节点组成。我们查询LLM以获取伪标签、logits和推理。然后，我们将这些节点添加到标签集中，并使用公式11重新训练我们的模型。我们继续这个过程，直到节点总数满足预算大小乘以类别数。这里，是一个相对较小的预算大小，以在查询LLMs的成本和由此带来的性能提升之间取得平衡。最后，带有伪标签的选定节点用于训练最终的GNN模型。这种方法使GNNs受益于LLMs的各种能力，增强了它们在稀缺标记数据下的性能。

5 实验结果与分析

在本节中，我们展示了我们提出的少样本节点分类模型在多个基准数据集上的评估结果。我们旨在解决以下研究问题：

RQ1: 我们提出的模型在一致设置下与最先进的基线相比表现如何？
RQ2: 不同的超参数如何影响我们模型的性能？
RQ3: 我们提出的模型中的不同组件对性能的贡献如何？

5.1 实验设置

5.1.1 数据集。

我们使用三个公共引用数据集来评估我们提出的模型：Cora、Citeseer 和 PubMed。这些数据集

是评估 GNN 模型在节点分类任务中最常用的引用网络数据集之一。在这些数据集中，节点代表出版文献，主题作为标签，边表示出版物之间的引用链接，节点特征来自出版物的标题和摘要。数据集统计信息如表 2 所示。

5.1.2 实现。

我们随机选择 -shot（即）样本作为训练数据。然后，从剩余数据中，我们随机选择 200 个实例作为测试数据，200 个作为验证数据。需要注意的是，由于我们随机选择 -shot 节点作为少样本设置的训练节点，种子的选择将影响初始节点的质量，从而影响分类性能。因此，我们使用不同的种子 0、1、2 进行实验，并使用平均准确率作为我们的最终结果。对于我们的基于 Graph-LLM 的主动学习策略，我们设置预算大小，表示在图形主动学习过程中每个类别总共选择 3 个样本。平衡参数配置为和，KD 温度用于从 LLM 中提取知识到 GNN。此外，我们在第 5.3 节中评估不同训练大小、主动学习的每类样本大小、平衡参数和以及 KD 温度的影响。

5.1.3 基线。

我们使用 7 个最先进的 GNN 模型作为基线，包括 3 个主干 GNN 模型：图卷积网络（GCN）、Graph-SAGE 和图注意力网络（GAT）；2 个基于 GNN 的少样本学习模型：Meta-PN 和 CGPN；1 个图自监督模型：MVGRL；以及 1 个基于 LLM 的少样本学习方法。

GCN：原始 GCN 在图结构数据上进行卷积操作，从邻近节点聚合信息以迭代更新节点表示。
GAT：GAT 将注意力机制引入 GNN 进行特征聚合，使 GAT 能够关注更重要的邻居并获得更好的节点表示。
GraphSAGE：GraphSAGE 通过采样邻居并采用均值聚合来学习节点嵌入，有效捕捉图的结构信息。
MVGRL：MVGRL 是 GNN 自监督学习的基准，通过数据增强创建多样化视图以进行对比学习，采用图扩散和子图采样来提高其性能。
CGPN：CGPN 引入了毒性学习的概念，并利用对比学习在整个图中有效传播有限标签。
Meta-PN：Meta-PN 使用元学习并采用双层优化方法生成高质量的伪标签。
基于 LLM 的模型：该基于 LLM 的模型利用 LLM 为每个类别生成伪节点，使用 LM 对这些节点进行编码，并使用 MLP 构建边。请注意，基于 LLM 的模型未提供原始代码；因此，我们根据论文中提供的描述独立开发了该模型。所有实验结果均在一致的设置下获得，包括初始训练节点和初始嵌入。

5.2 与基线模型的比较

我们进行全面的实验，以评估我们提出的模型在一致设置下与7个最先进的基线模型的性能，并旨在回答RQ1。具体而言，我们使用的样本量将我们的模型与七个最先进的模型进行比较。此外，我们还评估了使用不同主干模型的模型，包括GCN、GAT和Graph-SAGE。与基线模型的比较实验结果可以在表3、表4和表5中找到。从实验结果中，我们可以观察到基于LLM的少样本模型在性能上与传统的GNN模型和基于元学习的模型相匹配或超越。显然，我们提出的以GCN作为主干GNN模型的模型在不同样本量下大幅超越所有最先进的基线模型。例如，在3样本设置下，Cora的准确率提升幅度为，Citeseer为，PubMed为。这些观察结果突显了我们提出的模型能够在较少标记节点的情况下实现最先进的性能，使其成为少样本节点分类任务的有前景的方法。

从这些表中呈现的实验结果中，我们还可以观察到主干模型对我们提出的模型性能的影响。当使用已经表现出优越性能的主干模型时，我们的模型往往能够取得更好的性能。然而，在将我们提出的模型与这些主干模型进行比较时，我们的模型在性能上表现出显著的提升。这强调了我们的方法通过将LLM作为教师模型整合进来，增强GNN学习能力的有效性。

5.3 超参数评估

我们评估不同超参数的影响，以回答RQ2。我们使用不同的超参数设置评估我们提出的模型：训练大小；预算大小，用于基于图的LLM主动学习， × 3；平衡参数，，以及，其中；以及KD温度。训练大小的评估结果如表3、表4和表5所示。超参数评估如图3所示。

从表3、表4和表5中，我们可以很容易观察到：

当我们增加训练大小时，分类准确率的性能持续改善。特别是当从1增加到3时，性能显著提高。在图3(a)中，我们观察到随着值的增加，
的性能最初提高，然后在附近达到峰值。然而，超过这个最佳点后，性能随着的进一步增加而急剧下降。图3(b)说明当
时，性能增加，并在时达到最高性能。然后，当我们增大时，性能持续下降，

当小于0.3时，性能略有下降，而在0.3之后显著下降。观察到的趋势是相当可以理解的：随着我们增加平衡参数的值，基于真实值的损失比例逐渐减少。当比例低于某个阈值时，损失主要由教师损失和特征嵌入损失驱动。然而，从LLM生成的这些伪标签和特征嵌入的质量无法得到保证。

图3(c)显示了对KD温度的评估结果。它表明，随着我们增加，性能最初经历显著改善，在时稳定在高水平，然后当从5变化到9时急剧下降。理解这一趋势并不困难：当相对较小时，从教师模型提取的软标签概率是有信息量的，并有助于优化学生模型。然而，当变大时，提取的知识变得模糊，可能导致对学生模型推理能力的平滑效应。

• 关于预算大小的影响，如图3(d)所示。随着从1增加到7，我们观察到性能持续改善。然而，超出这个范围后，性能保持稳定甚至下降，表明扩大所获得的好处存在上限。在这一点上，预算大小的进一步增加会导致更高的成本，但性能提升却微乎其微。这表明，虽然增加预算可以在一定程度上提高性能，但我们需要在性能和成本之间进行权衡。

5.4 消融研究

在本节中，我们设计了消融研究，以进一步探讨不同组件如何影响我们模型的性能，并回答 RQ3。我们的模型采用了基于 LLM 和 Graph-LLM 的主动学习。对于 LLM，我们有两个不同的视角：1）软标签和 logits，2）增强的理由。因此，我们在模型设计中研究了三个组件：软标签和 logits、增强的理由以及基于 Graph-LLM 的主动学习。 (1) 软标签和 logits 指的是从 LLM 获取的软标签和 logits，这些用于知识蒸馏；(2) 理由指的是从 LLM 获取的增强解释，这将从嵌入层的特征角度提供见解；(3) 基于 Graph-LLM 的主动学习指的是为模型选择有价值的节点。超参数设置为，，，，，主干模型为 GCN。请注意，当我们单独将主动学习应用于模型时，我们选择具有高置信度分数的节点，并优先考虑最重要的节点。然而，当我们将 LLM 集成到模型中时，我们采用了基于 Graph-LLM 的主动学习策略。

如表 6 所示，所有这些组件都对我们模型的性能有所贡献。在这些组件中，增强的理由对性能的影响相对较小。当我们独立添加软标签和主动学习时，性能有了显著提升。当我们将这两个组件结合在一起时，性能有了显著改善。实验结果还展示了 LLM 可以有效提升 GNN 的性能。无论我们是独立整合 logits 和增强的理由，还是将它们结合在一起，性能都有显著提升。此外，当所有这些组件集成时，我们的模型达到了最先进的性能。

对于理由对齐，我们进一步评估了两种不同的对齐策略：1）最大池化和 2）我们的基于 MLP 的对齐方法。对于主动学习，我们评估了不同的选择策略：1）随机选择带有伪标签的节点；2）一次性选择所有有价值的节点，使用基于 Graph-LLM 的主动学习；3）使用我们的基于 Graph-LLM 的主动学习以迭代方式选择节点，这意味着我们将每类选择个节点，直到所选节点的总数达到。如表 7 所示，与基于 MLP 的对齐策略相比，使用最大池化的改进较小，这是合理的，因为最大池化在池化过程中会丢失一些信息。对于主动学习策略，使用我们的基于 Graph-LLM 的主动学习的模型性能优于随机选择节点。此外，尽管一次性选择所有有价值的节点显示出显著的性能提升，但当我们应用迭代选择策略时，性能达到了新高。这一提升归因于迭代主动学习过程，在该过程中，GNN 受益于 LLM 的零样本推理和推理能力，能够迭代地优化其预测。

6 结论

在本文中，我们将节点分类的任务扩展到一个更具挑战性和现实性的案例，即只有少量标记数据可用。为了解决这一挑战，我们提出了一种新颖的少样本节点分类模型，该模型利用了大型语言模型的零样本和推理能力。我们将大型语言模型视为教师，从分布侧的对数和特征侧的增强推理两个不同的角度来指导图神经网络。此外，我们提出了一种基于图-大型语言模型的主动学习方法，通过主动选择和提炼大型语言模型的知识，进一步提高图神经网络在少量可用数据下的泛化能力。为了评估我们模型的有效性，我们在三个引用网络上进行了广泛的实验。评估结果表明，我们的模型达到了最先进的性能，并且大型语言模型能够从不同的角度有效地为图神经网络提供见解，重申了其在节点分类中的有效性、相对于基线方法的优越性，以及在应对少样本节点分类挑战中的实际意义。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业