AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


探究使用大模型进行知识图谱构建以及问答
发布日期:2024-05-03 16:29:36 浏览次数: 2250



摘要

本文全面定量与定性评估了大型语言模型(LLMs)在知识图谱(KG)构建和推理方面的应用。我们在八个不同的数据集上进行实验,专注于四个代表性任务,包括实体和关系抽取、事件抽取、链接预测和问答,从而深入探索了LLMs在构建和推理领域的性能。实证研究发现,以GPT-4为代表的LLMs更适合作为推理助手,而不是少样本信息抽取器。具体来说,尽管GPT-4在与知识图谱构建相关的任务中表现良好,但它在推理任务中的表现更为出色,在某些情况下甚至超过了经过精细调整的模型。此外,我们的调查还扩展到LLMs在信息抽取方面的潜在泛化能力,这导致了虚拟知识抽取任务的提出和相应的VINE数据集的开发。基于这些实证发现,我们进一步提出了AutoKG,这是一种利用LLMs和外部资源进行KG构建和推理的多智能体方法。我们预期这项研究能为未来在知识图谱领域的工作提供宝贵的见解。

介绍

近期能力展示。实体和关系抽取以及事件抽取是构建知识图谱的基础元素,有助于丰富实体、关系和事件信息的细化。同时,链接预测作为知识图谱推理的核心任务,旨在揭示实体之间潜在的关系,从而丰富知识图谱。此外,我们进一步探索了大型语言模型(LLMs)在基于知识的问答任务中的应用,以全面理解它们的推理能力。考虑到这些因素,我们选择这些任务作为评估知识图谱构建和推理的代表。如图1所示,我们的初步调查针对的是大型语言模型在上述任务中的零样本和单样本能力。此分析旨在评估这些模型在知识图谱领域的潜在用途。实证发现表明,像GPT-4这样的LLMs作为少次信息抽取器的有效性有限,但作为推理助手展现了相当的熟练程度。

图1:我们工作的概览。主要包含三个部分:1) 基础评估:详细说明了我们对大型模型(text-davinci-003、ChatGPT和GPT-4)的评估,包括零样本和单样本设置,使用全监督最先进模型的性能作为基准;2) 虚拟知识提取:检查LLMs在构建的VINE数据集上的虚拟知识能力;3) 自动知识图谱:提出利用多个代理来促进知识图谱的构建和推理。

泛化性分析。 为了更深入地研究大型语言模型(LLMs)在信息抽取任务中的行为,我们设计了一个独特的任务,称为虚拟知识抽取。这项任务旨在辨别在这些任务上观察到的性能提升是归因于LLMs广泛的内部知识库,还是由于指令调优和通过人类反馈的强化学习(RLHF)(Christiano等,2017)促进的强大泛化能力。我们在新构建的数据集VINE上的实验表明,像GPT-4这样的大型语言模型能够从指令中获取新知识,并有效地执行抽取任务,从而在一定程度上提供了对大型模型更细腻的理解。

未来机遇。 鉴于前述实验,我们进一步审视了知识图谱的潜在发展方向。考虑到大型模型显著的泛化能力,我们选择利用它们来协助构建知识图谱。与较小的模型相比,这些大型语言模型(LLMs)减少了潜在的资源浪费,并在新颖或数据稀缺的情况下展现了显著的适应性。然而,重要的是要认识到它们对提示工程的强烈依赖以及知识截止点的固有限制。因此,研究人员正在探索允许LLMs访问和利用外部资源的交互机制,旨在进一步提升它们的性能(Wang等,2023b)。

基于此,我们引入了AutoKG的概念——通过多智能体通信实现的自主知识图谱构建和推理。在这一框架中,人类的角色减少了,多个通信智能体各自扮演着各自的角色。这些智能体与外部资源进行互动,协作完成任务

2 大模型的能力用于知识图谱构建和推理

大型语言模型如GPT-4的发布,以其卓越的通用能力被认可,被研究者视为人工通用智能(AGI)的火花(Bubeck等,2023)。为了深入理解它们在与知识图谱(KG)相关任务中的表现,进行了一系列评估。§2.1介绍了评估原则,随后§2.2详细分析了LLMs在构建和推理任务中的表现,突出了不同数据集和领域之间的变化。此外,§2.3深入探讨了LLMs在某些任务中表现不佳的原因。最后,§2.4讨论了模型的表现是否真正反映了泛化能力,或受到知识库固有优势的影响。

2.1 评价原理

在这项研究中,我们对代表性的大型语言模型GPT-4进行了全面评估,并特别分析了GPT-4与GPT系列中其他模型(如ChatGPT)之间的性能差异和提升。主要研究领域是模型在零样本和单样本任务中的表现,因为这些任务展示了模型在数据有限条件下的泛化能力。利用评估结果,我们的目标是探索模型在特定任务中表现出色的原因,并识别潜在的改进领域。最终,我们的目标是为未来这类模型的进步提取有价值的洞察。

2.2 知识图谱构建和推理

2.2.1 设置

数据集。 在实体和关系提取、事件提取任务中,我们使用了DuIE2.0(Li等,2019)、SciERC(Luan等,2018)、Re-TACRED(Stoica等,2021)和MAVEN(Wang等,2020)数据集。对于链接预测,我们利用了FB15K-237(Toutanova等,2015)和ATOMIC 2020(Hwang等,2021a)数据集。最后,在问答任务中使用了FreebaseQA(Jiang等,2019)和MetaQA(Zhang等,2018)数据集。所使用的数据集在附录B中有详细描述。

2.2.2 总体结果

实体与关系抽取。 我们在DuIE2.0、Re-TACRED和SciERC上进行实验,每个数据集涵盖了测试/验证集中的20个样本,包括所有类型的关系。我们分别在每个数据集上使用PaddleNLP LIC2021 IE 2、PL-Marker(Ye等,2022a)和EXOBRAIN(Park和Kim,2021)作为基准。同时,为了评估目的,结果报告使用了标准的微平均F1分数。如表1所示,GPT-4在零样本和单样本方式中的表现相对较好,尽管其性能尚未超过完全监督的小型模型。

表 1:KG 构建任务(F1 分数)
  • 零样本:GPT-4在所有测试数据集上的零样本性能显著提高,特别是在DuIE2.0中,得分为31.03,相比之下ChatGPT得分为10.3。特别是,在Re-TACRED的示例中,ChatGPT未能抽取目标三元组,可能是由于头尾实体的接近以及谓词的模糊性。相比之下,GPT-4给出了正确的答案“org:alternate_names”,凸显了其优越的语言理解能力。

  • 单样本:同时,文本指令的优化已被证明可以提升LLMs的性能。在DuIE2.0的上下文中,GPT-4从关于乔治·威尔科姆与洪都拉斯国家队的关联的声明中,辨别出了一个隐含的关系。这种精确性归功于GPT-4广泛的知识库,它促进了对乔治·威尔科姆国籍的推理。然而,也观察到GPT-4在处理复杂句子时遇到挑战,诸如提示质量和关系模糊性等因素影响了结果。

事件抽取。 为了简化,我们在MAVEN上对20个随机样本进行事件检测实验,涵盖所有事件类型。使用F分数指标,将GPT-4的性能与现有的最先进(SOTA)模型(Wang等,2022a)以及GPT家族中的其他模型进行对比。基于我们的结果,GPT-4显示出对SOTA的不一致的优越性,GPT-4和ChatGPT在不同的情况下相互超越。

  • 零样本:如表1所示,GPT-4的表现超过了ChatGPT。对于句子“Now an established member of the line-up, he agreed to sing it more often.”,ChatGPT生成了结果Becoming_a_member,而GPT-4则识别出了两个更多的事件类型:Agree_or_refuse_to_act、Performing。值得注意的是,在这个实验中,ChatGPT经常提供带有单一事件类型的答案。相比之下,GPT-4能够把握复杂的上下文信息,使其能够在这些句子中识别多个事件类型。
  • 单样本:在这种配置下,ChatGPT的性能显著提升,而GPT-4则经历了轻微的下降。图3表明,GPT-4错误地识别了五个事件类型,正确答案是Process_end和Come_together。尽管检测到了潜在的排名和比较信息,GPT-4错过了触发词final和host。同时,我们观察到,在单次射击设置下,当GPT-4无法识别出正确答案时,它倾向于产生更多错误的响应。我们推测这可能源自数据集的隐式类型指示。

链接预测。 任务链接预测涉及对两个不同数据集FB15k-237和ATOMIC2020的实验。前者是一个包含25个实例的随机样本集,而后者包含代表所有可能关系的23个实例。在各种方法中,表现最佳的微调模型是C-LMKE(BERT-base)(Wang等,2022b)和COMET(BART)(Hwang等,2021b)。

  • 零样本 在表2中,GPT-4在FB15k-237上显示其hits@1分数接近SOTA水平。关于ATOMIC2020,虽然GPT-4仍然超过其他两个模型,但在bleu1分数方面,GPT-4的表现与细调的SOTA之间仍然存在相当大的差距。在零样本上下文中,可以观察到当面对链接预测模糊性时,ChatGPT经常避免提供即时答案,而是选择寻求更多的上下文数据。这种谨慎的方法与GPT-4提供直接回应的倾向形成对比,暗示了它们在推理和决策策略上可能的差异。

  • 单样本 指导性文本优化在提高GPT系列在链接预测任务中的表现方面已被证明是有益的。实证评估表明单样本GPT-4在两个数据集上改善了结果,支持准确的尾实体预测。例如,在图4的例子中,目标[MASK]是黄金时段艾美奖。在零样本设置中,GPT-4未能理解关系,导致错误的回应喜剧系列。然而,当演示被纳入时,GPT-4成功识别了目标。

问答。 我们使用两个流行的知识库问答数据集FreebaseQA和MetaQA进行评估,每个数据集随机抽样20个实例。在MetaQA中,我们按照它们在数据集中的比例进行抽样。Yu等人(2022年)和Madani及Joseph(2023年)代表了所使用的SOTA模型。对于这两个数据集,均采用AnswerExactMatch作为评估指标。

  • 零样本 如表2所示,ChatGPT和GPT-4在FreebaseQA上表现相同,超过了之前的全监督SOTA 16%。然而,没有观察到GPT-4相对于ChatGPT的优势。对于MetaQA,LLMs和监督SOTA之间仍然存在很大的差距,可能是由于多答案问题和LLM输入令牌限制。尽管如此,GPT-4比ChatGPT高出11.1分,这表明GPT-4在更具挑战性的QA任务上优于ChatGPT。特别是,在图4的例子中,GPT-4正确回答了一个来自MetaQA的多跳问题,给出了1999年和1974年的发布日期,凸显了其在多跳QA任务上相比ChatGPT的卓越表现。
图 4:链接预测和 QA 的例子
表 2:链接预测和问答
  • 单样本 我们还在单样本设置下进行实验,随机从训练集中抽取一个示例作为上下文示范。表2的结果表明,只有text-davinci-003从提示中受益,而ChatGPT和GPT-4都遇到了性能下降。这可以归因于臭名昭著的对齐税,其中模型为了与人类反馈对齐牺牲了一些它们的上下文学习能力。

2.2.3 知识图谱构建和推理

我们在知识图谱构建和推理上的实验显示,与构建能力相比,大型语言模型(LLMs)表现出了更优越的推理技能。鉴于缺乏更精细的评估标准,我们通过测量LLMs与当前最先进(SOTA)方法之间的性能差异来评估LLMs在这些任务中的相对能力。尽管LLMs的表现令人瞩目,但在零样本和单次射击设置下,它们并未超越当前的最先进模型进行知识图谱构建,这表明在从稀疏数据中提取信息时存在限制。相反,在单样本设置下的所有LLMs,以及GPT-4在零样本设置下,达到或接近了在FreebaseQA和FB15K-237数据集上的SOTA性能。此外,它们在剩余数据集上也表现出相对良好的性能,这强调了它们在知识图谱推理任务中的适应性同样优秀。知识图谱构建任务的内在复杂性可能是导致这一性能差异的原因。此外,LLMs强大的推理性能可能归因于在预训练期间接触到相关知识。

2.2.4 通用性 vs 特定领域

在我们的研究中,我们评估了大型语言模型(以GPT-4为例)在不同知识领域中的表现,确保了在通用和专业环境中都进行平衡评估。选定的基准测试,SciERC和Re-TACRED,分别代表科学领域和通用领域。尽管Re-TACRED与SciERC的七种关系类型相比展示了更广泛的关系类型,但GPT-4和ChatGPT在专业的SciERC数据集上的表现不佳,表明了它们在领域特定数据上的局限性。有趣的是,当给出一个示例时,GPT-4在SciERC上的性能提升不如在Re-TACRED上明显。我们假设,在专业数据集上的欠佳表现可能源自这些模型主要在广泛的通用语料库上训练,因此缺乏足够的领域特定专业知识。

2.4 讨论:大型语言模型(LLMs)是拥有记忆化知识还是真正具备泛化能力?

借鉴先前研究的见解,显然大型模型擅长于从最少的信息中迅速提取结构化知识。这一观察提出了一个关于LLMs性能优势来源的问题:这是因为在预训练阶段使用了大量的文本数据,使得模型能够获得相关知识,还是归因于它们强大的推理和泛化能力?为了探索这一点,我们设计了虚拟知识抽取任务,目标是测试LLMs泛化和提取不熟悉知识的能力。鉴于现有数据集的不足,我们提出了VINE,这是一个专门为虚拟知识抽取设计的新数据集。

在VINE中,我们构造了现实中不存在的实体和关系,并将它们结构化为知识三元组。然后,我们指导模型提取这种合成的知识,使用这一过程的效率作为LLMs管理虚拟知识能力的指标。值得注意的是,我们基于Re-TACRED的测试集构建了VINE。这一过程的主要思想是用未见过的实体和关系替换原始数据集中存在的实体和关系,从而创建独特的虚拟知识情景。

2.4.1 数据收集

考虑到像GPT-4这样的大型模型拥有庞大的训练数据集,要找到它们无法识别的知识是具有挑战性的。我们以GPT-4截至2021年9月的数据为基础,选择了纽约时报在2022年和2023年组织的两项竞赛中部分参赛者的回应作为我们的数据来源之一。

然而,由于上述竞赛中的回应数量有限,为了增加数据源的多样性,我们还通过随机生成字母序列来创造新词。这是通过生成长度在7到9个字符之间的随机序列(包括26个字母和符号“_”)来完成的,并随机添加常见名词后缀以完成构造。更多细节可以在附录C中找到。

2.4.2 初步结果

在我们的实验中,我们随机选择了十个句子进行评估,确保它们涵盖了所有的关系。在学习了相同关系的两个示例后,我们评估了ChatGPT和GPT-4在这些测试样本上的表现。值得注意的是,GPT-4成功提取了80%的虚拟三元组,而ChatGPT的准确率仅为27%。

在图5中,我们为大型模型提供了一个由虚拟关系类型和虚拟头尾实体组成的三元组——[Schoolnogo, decidiaster, Reptance]和[Intranguish, decidiaster, Nugculous]——以及相应的示例。结果显示,GPT-4有效地完成了虚拟三元组的提取。因此,我们初步得出结论,GPT-4展示了相对强大的泛化能力,并且可以通过指令迅速获取提取新知识的能力,而不仅仅依赖于相关知识的记忆。相关工作(Wei等,2023a)也证实了大型模型对指令具有异常强大的泛化能力。

图5:在虚拟知识提取中使用的提示。蓝色框是演示,粉色框是相应的答案。

未来机会 自动化的知识图谱构建和推理

在考虑知识图谱的发展轨迹时,大型语言模型的显著优点变得明显。它们不仅优化了资源利用,而且在适应性方面也超过了较小的模型,特别是在不同的应用领域和数据有限的环境中。这样的优势将它们定位为知识图谱构建和推理的主要工具。然而,尽管LLMs的能力令人印象深刻,研究人员已经识别出某些限制,如与人类偏好的不一致和产生幻觉的倾向。像ChatGPT这样的模型的效能在很大程度上依赖于人类在对话生成中的参与。进一步优化模型响应需要复杂的用户任务描述和丰富的互动上下文,这一过程在开发生命周期中仍然要求高且耗时。

因此,在交互式自然语言处理(iNLP)领域的兴趣不断增长(Wang等,2023b)。与此同时,关于智能代理的研究努力持续增加(Wang等,2023a;Xi等,2023;Zhao等,2023a)。这一进展的一个显著例子是AutoGPT4,它能够独立生成提示并执行任务,如事件分析、编程和数学操作。同时,Li等(2023)深入探讨了沟通代理之间的自主合作潜力,并引入了一种名为角色扮演的新型合作代理框架。

鉴于我们的发现,我们提议使用沟通智能代理进行知识图谱构建,利用分配给多个代理的不同角色基于它们的相互知识协作完成KG任务。考虑到大型模型在预训练阶段普遍存在的知识截断问题,我们建议引入外部资源以协助完成任务。这些资源可以包括知识库、现有的KG和互联网检索系统等。我们将其命名为AutoKG。

为了简单演示这一概念,我们使用了CAMEL(Li等,2023)中的角色扮演方法。如图6所示,我们将KG助理代理指定为顾问,KG用户代理作为KG领域专家。在接收到提示和分配的角色后,任务指定代理提供了详细的描述来阐明概念。随后,KG助理和KG用户在多方设置中协作完成指定的任务,直到KG用户确认其完成。同时,引入了网络搜索者角色,以协助KG助理进行互联网知识检索。当KG助理收到KG用户的对话时,它首先咨询网络搜索者是否根据内容在线浏览信息。在网络搜索者的响应指导下,KG助理然后继续处理KG用户的指令。实验示例表明,使用多智能体和互联网增强方法构建的2023年发布的电影《蜘蛛侠:穿越蜘蛛宇宙》相关的知识图谱更为有效和全面。

图6:展示了AutoKG,它通过使用GPT-4和基于ChatGPT的交流代理,整合了知识图谱的构建和推理。该图省略了具体的操作过程,直接提供了结果。

评注。 通过结合人工智能和人类专业知识的努力,AutoKG可以加速创建专业的知识图谱,促进与语言模型的协作环境。这个系统利用领域和互联网知识产生高质量的知识图谱,提高了LLMs在特定领域任务中的事实准确性,从而增加了它们的实际效用。AutoKG不仅简化了构建过程,还提高了LLMs的透明度,促进了对它们内部工作的更深入理解。作为一个合作的人机平台,它增强了对LLMs决策过程的理解和指导,提高了它们在复杂任务中的效率。然而,值得注意的是,尽管有AutoKG的协助,构建的知识图谱当前结果仍然需要手工评估和验证。

此外,在使用AutoKG时,还存在三个显著的挑战,需要进一步的研究和解决:API使用受到最大令牌限制的约束。目前使用的gpt-3.5-turbo受到最大令牌限制的影响。这个约束影响了知识图谱的构建。AutoKG目前在促进高效的人机交互方面显示出不足。在完全自主的机器操作中,缺乏即时错误更正的人类监督,但在每一步中加入人类参与将大幅增加时间和劳动成本。LLMs的幻觉问题。鉴于LLMs生成非事实信息的倾向已知,必须仔细审查它们的输出。这可以通过与标准答案的比较、专家审查或通过半自动算法来实现。

结论和未来工作

在本文中,我们研究了LLMs在知识图谱(KG)构建和推理上的应用。我们探讨了LLMs的抽取能力是来源于它们庞大的预训练语料库,还是它们强大的上下文学习能力。为此,我们采用一个新的数据集进行虚拟知识抽取任务,结果突出了LLMs的强大上下文学习能力。此外,我们提出了一种创新的AutoKG方法,通过使用多个智能体来完成KG构建和推理任务。未来,我们希望将我们的工作扩展到其他LLMs,并探索更多与KG相关的任务,如多模态推理。

限制虽然我们的研究取得了一些成果,但也存在一定的局限性。正如前所述,无法访问GPT-4 API使我们不得不依赖交互界面来进行实验,这无疑增加了工作量和时间成本。我们期待未来的研究机会,能让我们进一步探索这些领域。

LLMs。我们的实验限定在GPT系列模型内,没有检验像LaMDA(Thoppilan等,2022)这样其他大型模型的性能。未来的工作可以将这些实验扩展到更多的LLMs。此外,由于我们无法访问GPT-4 API,因此我们通过交互界面完成实验,这既耗时又费力。

任务。我们的研究并未考虑所有的知识图谱构建和推理任务。我们专注于少数代表性任务,这可能限制了我们发现的适用性在特定上下文中的应用。此外,由于GPT-4的多模态能力对公众不可用,我们无法深入了解其在多模态处理方面的性能和贡献。我们期待未来的研究机会,能让我们进一步探索这些领域。

关于我们


?『大模型的艺术』? — 深入探索大模型的奥秘!我们专注于解析大模型的基础原理、实用操作指南和广泛应用。? 欢迎关注我们微信公众号,大模型的艺术。一起学习大模型的原理及探索大模型的应用落地,欢迎交流。如果你有什么想问想说的,可以在评论区留言或者后台直接留言,我们会第一时间进行回复。 关注后回复【论文】:即可免费领取NLP必读经典论文,包括attention,bert,word2vec等必读论文。还有2023最新的LLMs相关论文,包括RLHF最新最全最高引论文!多达100多篇全部需要收费的论文,回复即可免费获取! ? 每期内容,您将发现:
? 最新的大模型训练技巧:让复杂知识变得易于理解。
? 精选训练资料:涵盖工程实践、技术总结到行业动态。
? 行业应用案例:看看大模型如何在不同领域大放异彩。
? 免费资源:NLP学习资源、视频教程、PDF电子书等,一网打尽。
? 关注我们,让最前沿的技术触手可及,与我们一起,您不仅获得知识,还能享受到学习的乐趣和实战的便利。我们致力于提供最新、最实用的信息,帮助您领先一步!? ? 独家资源等你来领!?关注后:
回复【白皮书】即可获得世界经济论坛关于AIGC/LLM如何重塑我们工作的白皮书,看看你的工作未来有多少内容会被影响吧。
回复【论文】:即可免费领取NLP必读经典论文,包括attention,bert,word2vec等必读论文。还有2023最新的LLMs相关论文,包括RLHF最新最全最高引论文!多达100多篇全部需要收费的论文,回复即可免费获取!
回复【提示】:可免费领取提示工程指南,包括prompt工程基本提示,prompt工程高级提示,prompt工程Chatgpt提示,prompt工程Midjounery提示,prompt工程StableDiffusion提示,等等。让你从小白直接成为提示工程师的全套提示资料!


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询