微信扫码
与创始人交个朋友
我要投稿
之前我用三期内容对(传统)知识图谱自动构建过程中的“知识获取”(特别是从非结构化或半结构化数据中自动提取和构建知识图谱)做了概述。这些传统技术主要关注于统计方法和神经网络,尤其是深度学习技术在知识图谱构建中的应用。(进一步阅读:《[综述导读] 知识图谱自动构建综述(一)》《[综述导读] 知识图谱自动构建综述(二)》《[综述导读] 知识图谱自动构建综述(三)》)
今天我们更进一步,借《LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities》来聊聊基于 LLM 的知识图谱自动构建和推理是否可靠、如何实现。
总得来说,① 作者通过在八个不同的数据集上进行实验,重点关注了实体和关系提取(entity and relation extraction)、事件提取(event extraction)、链接预测(link prediction)和问答(question-answering)等四个代表性任务,全面探索了LLMs在构建和推理领域的性能;② 还研究了LLMs进行信息提取的潜在泛化能力,提出了一种名为虚拟知识提取(Virtual Knowledge Extraction)的独特任务,并开发了相应的 VINE 数据集;③ 最后提出了一种基于多智能体利用LLMs和外部资源进行KG构建和推理的方法 AutoKG
知识图谱(KG)在多个领域的广泛应用,其中包括实体、概念和关系组成的语义网络。构建KG通常涉及多种任务,如命名实体识别(NER)、关系提取(RE)、事件提取(EE)和实体链接(EL)。链接预测(LP)是KG推理的关键步骤,对于理解构建的KG至关重要。此外,KG在问答(QA)任务(即利用已有的知识图谱来回答问题,这可能涉及到对 KG 中的实体和关系进行推理)中也占据中心地位,尤其是在基于问题上下文进行推理时。
因此,为了深入了解 LLMs 在与 KG 有关的任务中的表现,作者针对实体和关系抽取(RE)、事件检测(ED)、链接预测(LP)和问答(QA)四个任务,对 LLMs 在 KG 构建和推理任务中的潜力进行实证调查。通过理解 LLMs 的基本能力,作者进一步探讨了它们在未来可能的发展方向。研究集中在以下几个方面:
编者按:“事件提取”(EE)可能并不是一个常见的 KG 构建任务,参考相关资料和往期内容《[综述导读] 知识图谱自动构建综述(一)》,KG 构建的一般流程除了前面提到的 NER、RE、EL 外,还有实体分类(ET)、共指解析(CR)等。但 EE 在KG 构建中可能可以起到丰富知识表示、增强关系识别、提供上下文信息、促进领域特定应用、辅助自动化知识获取、增强语义理解等作用,因此其作用也是不容忽视的。(如有不同意见,欢迎在评论区提出)
针对前述四个任务,在 zero-shot 和 one-shot 设置下,作者对 GPT-4、ChatGPT 和 text-davinci-003 进行了评估,具体分析了其之间的性能差异和增强,并以各项任务中的完全监督 SOTA 模型作为基准模型。此外,针对不同任务还分别应用了不同的数据集进行评测:
编者按:我认为从现有数据集中仅随机抽取 20 个左右的样本进行测试是不足的。但作者在 Limitations 中提到,由于他们无法使用 GPT-4 API,因此只能通过交互界面进行实验,这增加了工作量和时间成本。
从总体来说(见左下图),尽管当下我们时常吹捧 LLMs ,但它们在 zero-shot 和 one-shot 设置下的 KG 构建方面并没有超越当前最先进的模型,这表明它们在从稀疏数据中提取信息方面存在局限性。相反,在 FreebaseQA(QA 任务)和 FB15K-237(EP 任务)数据集上,所有 LLMs 在 zero-shot 和 GPT-4 在 one-shot 中的性能都达到或接近 SOTA。这种在构建和推理任务上的差异可能源于构建任务的内在复杂性;此外,LLMs 在推理上的稳健表现还可能归因于他们在训练前接触了相关知识。
具体来说:
作者通过在 SciERC 和 Re-TACRED 数据集(均用于评估 RE 任务)上的实验,评估了 LLMs 在通用和专业领域的表现。发现它在特定领域的数据集上表现不佳(见表 1),这可能是由于模型主要在广泛的通用语料库上训练,缺乏足够的特定领域专业知识。
作者还讨论了在前述评测中,LLMs 表现不佳的诸多原因:
为了探讨“LLMs 的推理能力是源于其记忆的大量知识还是真实具备强大的泛化能力”,提出了虚拟知识提取任务。在实验中,作者通过构造不存在的实体和关系,即数据集 VINE(具体构造方式见原文,或公众号后台回复“VINE”),评估 LLMs 从指令中获取新知识并执行提取任务的能力。实验结果发现 GPT-4 在这个测试中成功提取了 80% 的虚拟三元组,而 ChatGPT 的准确率仅为 27%。这个过程展示了 GPT-4 具有较强的泛化能力,能够迅速获得通过指令提取新知识的能力,而不是仅仅依赖于对相关知识的记忆。
在特定领域(尤其是数据有限的情况下),LLMs 相比小模型具有更强的适应性和泛化性,但 LLMs 在提供信息时可能会产生“幻觉”,其“黑箱”特性影响了模型的可解释性和准确性。由此作者提出了一种多智能体方法 AutoKG,通过分配不同角色给多个智能体,使它们能够基于相互知识协作完成KG任务。
如下图所示,在 AutoKG 框架中,不同的智能体被分配不同的角色,例如作为咨询者的 KG 助理智能体 (KG assistant agent) 和作为领域专家的 KG 用户智能体 (KG user agent)。智能体接收到与知识图谱构建或推理任务相关的提示,这些提示指导智能体执行特定的行动。
在收到提示和分配的角色后,任务指定智能体(task specifier)会提供详细描述以澄清概念。随后,KG 助手和 KG 用户通过多方写作和互动完成指定任务,直到 KG 用户确认任务完成。与此同时,还引入了网络搜索者(web searcher),以帮助 KG 助手进行互联网知识检索。KG assistant 在收到 KG user 的对话后,首先会咨询 web searcher 是否根据内容上网浏览信息;在 web searcher 回答的引导下,KG assistant 继续处理 KG user 的指令。实验结果表明,使用多智能体和互联网增强方法可以更有效、更全面地构建知识图谱。
尽管 AutoKG 可以显著改善 LLMs 构建 KG 的效果,但在使用过程中存在三个显著挑战:
尽管研究取得了一定成果,但也存在局限性。例如,由于无法访问GPT-4 API,研究者们只能通过交互界面进行实验,这增加了工作量和时间成本。此外,还存在其他局限:
论文提出了未来研究的方向,包括将研究扩展到其他LLMs,探索更多与KG相关的任务,例如多模态推理。此外,研究者们期待有机会进一步探索GPT-4的多模态能力,并评估其在多模态处理方面的性能。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-17
2024-07-11
2024-07-13
2024-08-13
2024-07-08
2024-07-12
2024-07-26
2024-07-04
2024-06-10
2024-04-10
2024-11-04
2024-10-10
2024-10-03
2024-09-27
2024-09-08
2024-09-05
2024-08-27
2024-08-24