AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


8  伦理声明
发布日期:2024-06-14 08:45:14 浏览次数: 1865 来源:知识图谱科技



DALK: Dynamic Co-Augmentation of LLMs and KG to answer
Alzheimer’s Disease Questions with Scientific Literature

最近,大型语言模型(LLM)的最新进展在各种应用中取得了令人期待的表现。然而,整合长尾知识的持续挑战仍然限制了LLM在专业领域中的无缝应用。在这项工作中,我们介绍了DALK,即LLMs和KG的动态互补增强,以解决这一限制,并展示其在研究阿尔茨海默病(AD)方面的能力,该疾病是生物医学中的一个专门子领域,也是全球卫生优先事项。通过LLM和KG相互增强的协同框架,我们首先利用LLM构建了一个演化的AD特定知识图谱(KG),该图谱源自于与AD相关的科学文献,然后我们利用一种粗到精的采样方法以及一种新颖的自我感知知识检索方法,从KG中选择适当的知识来增强LLM的推理能力。

在我们构建的AD问答(ADQA)基准上进行的实验结果突显了DALK的功效。此外,我们还进行了一系列详细的分析,为相互增强的KG和LLM这一新兴领域提供了有价值的洞察力和指南。我们将在此URL发布代码和数据。https://github.com/David-Li0406/DALK

1 简介

阿尔茨海默病(AD)是一种以认知和功能状态逐渐下降为特征的神经退行性疾病,在几十年的时间跨度内逐渐恶化。然而,由于缺乏对疾病潜在病因机制的知识和理解,目前的AD治疗发展面临着重大挑战。尽管科学文献和专用生物医学数据库可能提供丰富的AD知识来源,但由于信息量巨大,对相关信息进行手动审核是不可能的。

大型语言模型(LLMs)(Brown等,2020年;Zhang等,2022年;Anil等,2023年;Touvron等,2023年)以基于思维链(CoT)的提示功能(Wei等,2022年;Wang等,2022年;Tong等,2023年;Yao等,2023年;Besta等,2023年)展示了在各种任务中强大的语言能力,有人试图利用基于LLMs的系统在一般生物医学和与AD相关的应用中。然而,虽然LLMs在许多一般任务中表现出色,但最近的研究揭示了LLMs在长尾(Kandpal等,2023年)和领域特定(Li等,2023年b,2024年)知识方面的局限,从而显著阻碍了它们在AD等垂直领域的应用。为解决这一问题,最常见的策略是检索增强生成(RAG)和领域特定LLMs训练。

然而,在类似AD这样的情境中直接应用这些策略仍然会遇到一些问题。首先,数据质量:正如许多生物医学领域一样,科学文献构成了AD中最大的公开语料库来源。然而,科学文献的密集和信息过载的性质,当与自动检索方法结合时,可能导致检索到无关和嘈杂的信息。先前的研究表明,嘈杂和无关的语料库可以显著削弱LLMs的性能。第二,效率和规模问题:作为一个重要的研究领域,AD的知识正在以惊人的速度和规模随着科学进步而不断发展。然而,重新训练特定领域的LLM或更新其中的某些知识需要大量的计算资源。这种效率问题也将限制特定领域LLMs的规模,从而影响它们的性能。

为了解决这些限制,我们在这里提出了一个促进LLMs和知识图谱(KG)在AD领域相互获益的动态共同增强(DALK)框架。首先,我们的框架通过从非结构化和密集的科学文献中提取更多结构化和准确的知识,并构建一个量身定制给AD的领域知识图谱,从而解决了数据质量挑战。

我们采用了两种广泛应用的知识图构建方法,即一对一构建(Carta等,2023年;Wadhwa等,2023)和生成构建(Han等,2023年;Bi等,2024),全面评估它们对知识图质量的影响。然后,我们采用一种从粗到细的采样方法,并结合一种新颖的自我感知知识检索方法,从知识图谱中选择合适的知识,进一步解决数据质量问题。值得注意的是,我们的框架无需调整即可显著提高效率,并促进其在大规模和基于API的语言模型(OpenAI,2022)中的应用。在评估部分,我们从现有的一般医学QA数据集中提取了一个阿尔茨海默病问答(ADQA)基准,通过一个策划关键词列表和LLMs的自采样,过滤了数百万样本。我们在ADQA上进行的广泛实验展示了我们的框架在与一般生物医学LLMs和检索增强模型相比的领域特定应用中的有效性。进一步的评估和分析为构建高质量知识图谱和从中采样精确知识提供了宝贵的见解。

总之,我们在这项工作中的贡献可以总结如下:

  • 我们确定当前LLM在领域特定领域(如AD)中的方法的限制,并引入DALK,这是LLM和KG的协同增强框架,以解决这些问题。

  • 我们构建了AD特定的KG和QA基准。通过与其他方法的广泛比较,我们展示了DALK的有效性。

  • 我们深入分析了我们提出的方法,并就如何构建高质量的KG以及从中提取精确知识提供了有价值的见解和指导。

2相关工作

LLMs和KGs之间的相互作用

KGs Miller(1995); Speer等人(2017); Vrandečić和Krötzsch(2014)作为事实知识的结构化表示,通常表示为(头,关系,尾)三元组。它们的结构化、事实性和可解释性使它们成为对参数化语言模型Pan等人(2024)的极好补充。最近,随着大型语言模型(LLMs)的出现,许多研究深入探讨了LLMs和KGs之间在各种目的上的协同作用Pan等人(2024); Tan等人(2024)。在进行知识图构建上有很多努力Carta等人(2023); Wadhwa等人(2023); Han等人(2023); Bi等人(2024); Datta等人(2024)。与此相反,其他作品旨在通过在训练Tang等人(2023); Luo等人(2024); Dernbach等人(2024); Rangel等人(2024)和推理Kim等人(2023); Wen等人(2023); Jiang等人(2023); Sun等人(2023a)过程中整合从KGs中抽样的知识来增强LLMs。我们的工作通过提出一个用于LLMs和KGs的共增强框架来区别自己,促进它们的相互增强,并将其应用于AD领域。

LLMs and KGs for AD research

LLMs和KGs曾在以往的研究中被应用于阿尔茨海默病研究。事先训练的语言模型被用于基于语音记录和转录的AD检测以及许多其他相关任务 Balagopalan等人(2020); Agbavor和Liang(2022),电子健康记录(EHRs) 毛等人(2023); 李等人(2023c); 颜等人(2024); 和表格数据 冯等人(2023)。KG已被广泛用于生物医学研究,然而只有少数专门用于AD研究 Romano等人(2023); Pu等人(2023); 谢等人(2023); 年等人(2022); Daluwatumulle等人(2023)。这些KG通常是从异质生物医学数据库衍生的各种信息(例如基因,药物,途径等)或与AD相关的科学文献构建的。尽管LLMs和KGs在AD研究中已经做出了前述努力,但以前没有研究探索过使用LLM来增强AD-KG,反之亦然,更不用说我们在这里提出的两者之间的相互增强潜力。

3我们的方法

图1:DALK的概述流程。我们首先从非结构化语料库中提取结构化知识,并构建一个针对AD的领域特定知识图(第3.1节)。然后,我们利用一种新颖的自我意识知识检索方法进行粗到细的采样,从知识图中选择适当的知识(第3.2节)。


本节详细阐述了我们的LLM和KG的动态协同增强框架。第3.1节介绍了以时间分段方式(即一年一年)用LLM和文献语料库增强AD特定演化的KG的详细过程。随后,第3.2节描述了从演化KG中抽样适当知识以增强LLM推理的过程。图1描绘了我们方法DALK的整体流程。

3.1LLMs for KG

语料收集

为了创建具有广告特定知识图谱,我们遵循 Pu 等人(2023年)的方法,并使用墨尔本大学的领域专家 Colin Masters 教授收集的广告语料库,他在1985年发现淀粉样蛋白可能是广告的潜在原因 Masters 等人(1985年)。该语料库基于他广泛的代表性广告相关论文目录,并由1977年至2021年间的超过16,000篇 PMID(PubMed ID)索引文章组成。对于我们的研究,我们关注自2011年以来的论文,这些论文反映了该领域最新的知识,并获得了9,764篇文章。

实体识别

为了以适当的粒度水平识别广告领域的知识,我们通过利用由 NCBI 开发和不断维护的 PubTator Central(PTC)韦等(2013年)从语料库中提取相关实体。PTC 是一个广泛使用的工具,可为 PubMed 摘要和全文提供生物医学概念的最新注释,并支持六种生物概念类型,包括基因、疾病、化学物质、突变、物种和细胞系。我们应用 PTC 到我们所有广告论文的摘要,并获得相关命名实体,这将作为知识图谱中的节点。

关系提取

为了在广告领域构建准确高质量的知识图谱,我们旨在为两个相关实体之间分配特定的关系类型。通过对知识图谱构建的关系提取方法进行全面调查,我们将当前方法与 LLMs 归类为两大组:(a)配对关系提取 Carta 等人(2023年);Wadhwa 等人(2023年)的目标是促使 LLMs 描述文本段落中任意两个实体之间的关系。(b)生成关系提取 Han 等人(2023年);Bi 等人(2024年);Datta 等人(2024年),其中 LLMs 直接输出所有相关实体对及其相应的关系。如图2所示,我们将这两种关系提取方法结合到我们的知识图谱增强过程中,以提供它们之间的全面比较。我们分别将这些方法产生的知识图谱表示为 ?⁢??⁢?⁢?⁢? 和 ?⁢??⁢?⁢?。

表1呈现了关于我们增加的知识图谱的详细统计数据,包括我们使用的语料库数量以及 ?⁢??⁢?⁢?⁢? 和 ?⁢??⁢?⁢? 中节点、关系和三元组的数量。

图2:AD特定知识图构建的详细过程。

3.2KG for LLMs

在这一部分中,我们首先概述了我们从不断演变的知识图中采样粗粒度增强知识的过程(第3.2.1节)。随后,我们深入探讨了关于我们自我感知知识检索方法的细节,该方法旨在过滤掉噪声并检索出最相关的知识,以提供给LLM(第3.2.2节)。


3.2.1粗粒度知识采样

给定一个问题查询Q,我们首先构建一个提示,并要求LLMs从中提取所有领域特定的实体E={e1,e2,…}。然后,我们遵循文等人(2023)提出的方法,并执行基于相似度的实体链接过程,将E中的所有实体连接到我们知识图G中的实体结构。具体而言,我们使用语义相似度模型Reimers和Gurevych(2019)将G和E中的所有实体编码为密集嵌入,分别表示为HG和HE。随后,利用余弦相似度,在E中的每个实体和G中其最近邻实体之间建立链接。该过程产生了一个用于后续知识采样步骤的初始实体集合EG。

为了构建一个证据子图来增强LLMs的推理过程,我们遵循先前的研究文等人(2023),并考虑我们AD-KG中以下两种探索方式:


基于路径的探索

涉及从G中提取一个子图,包括EG中的所有实体。该过程展开如下:(a) 从eQ0中选择一个节点作为初始节点,记为e1,并将其余节点放入候选节点集Ec。探索从e1到识别下一个节点e2的最多k跳路径,其中e1∈Ec。如果在k跳内成功到达e2,则将起始节点更新为e2,并将e2从Ec中移除。如果无法在k跳内找到e2,则将迄今为止获得的片段路径连接起来,并将其存储在GQpath中。随后,从Vc中选择另一个节点e1'作为新的起始节点,将原始起始节点e1和当前节点e2都从Ec中删除。(b) 验证Eс是否为空。如果不是,重复步骤(a)以识别路径的下一个部分。如果Eс为空,则将所有片段组合起来构建一组子图,并将其放入GQpath。


基于邻居的探索

致力于增加与GQ中查询相关的证据。该过程包括两个步骤:(a) 首先,将EG中的每个节点e扩展1跳以包括它们的邻居e',从而将三元组(e,r,e')附加到GQnei中。(b) 然后评估每个e'是否与查询具有语义相关性。如果是肯定的,进一步扩展e'的1跳邻居,从而将三元组(enew,r',e')添加到GQnei中。

在获得两个子图GQpath和GQnei后,我们进行后处理,进一步修剪子图中的冗余信息,并提示LLMs描述每个子图的结构。


3.2.2自我感知知识检索


在我们的初始实验中,我们注意到以上方法采样的粗粒度知识仍然包含冗余和无关信息。噪音问题是自动构建的知识图中经常遇到的共同挑战。此外,许多最近的研究表明LLM实际上可能受到这些嘈杂信息的影响。为了解决这一挑战,我们借鉴了最近的自我动力LLM的见解,并提出了一种自感知知识检索方法,以利用LLM的排名能力来过滤噪音信息。

具体而言,我们直接提示LLM重新排列采样的知识,并仅检索前k个三元组,以提供给自己在最终推理中使用。给定问题?以及基于路径或基于邻居的子图??,我们通过填充预定义模板创建提示??⁢?⁢?⁢?:


然后,我们使用提示??⁢?⁢?⁢?作为输入提示LLM获取自检索知识:


最后,我们将问题?和细粒度知识???⁢?⁢?⁢?提供给LLM进行推理,并在两个步骤中获得预测答案?:


我们在附录A和B中提供详细示例,以演示我们DALK中的输入和输出。

4主要实验

4.1ADQA基准

对于性能评估,我们考虑了涵盖不同生物医学主题的四个广泛使用的医学问答数据集Jin等人(2021);Pal等人(2022);Hendrycks等人(2021);Peñas等人(2013)并从中提取了一个与AD相关的QA数据集。这四个医学问答数据集都是基于多项选择的,包括:

1)MedQA Jin等人(2021)包含美国医疗执照考试(USMLE)风格的问题;2)MedMCQA Pal等人(2022)包含来自印度的医学院入学考试问题;3)MMLU Hendrycks等人(2021)包含来自各种来源的多样化生物医学和临床问题;4)QA4MRE Peñas等人(2013)包含从PubMed和Medline获取的AD子问题。

为了从医学问答数据集中提取与AD相关的样本子集以用于评估,我们参考了NIH的通用老年痴呆症及相关痴呆研究本体(CADRO)1. 由美国国家老龄化研究所和阿尔茨海默病协会共同开发,CADRO是一个三级分类系统,包括八个主要类别和一打子类别,用于AD和相关痴呆,并包含该领域常用的术语或关键词。我们从CADRO中提取了与医学问答数据集最相关的AD相关关键词列表:<老化,阿尔茨海默病,淀粉样蛋白β,APOE,痴呆,脂蛋白,微胶质细胞>。

然后,我们针对每个医学问答数据集搜索与这些关键词匹配的样本,以找到疑似的QA样本,然后进一步询问GPT-3.5-turbo,对于每个疑似样本判断该问题是否与AD相关。最后,我们筛选出一些被认为与AD高度相关的样本子集进行我们的评估(每个数据集中的样本数目在表2中显示)。有关ADQA的更多详细信息,请参阅附录C。

4.2实验设置

我们使用OpenAI GPT-3.5-turbo模型OpenAI(2022)。我们还包括以下用于比较的基准方法:

生物医学LLMs

ChatDoctor Yunxiang等人(2023)和Med-Alpaca Shu等人(2023)都是LLaMA Touvron等人在生物医学语料库上微调的版本。与它们相比,Meditron Chen等人(2023)基于LLaMA-2 Touvron等人(2023),并在一个全面策划的医学语料库上扩展其预训练。BiomedGPT Zhang等人(2023a)也基于LLaMA-2,并作为首个开源通用视觉语言AI,为多样的生物医学任务提供支持。Biomistral Labrak等人(2024)是专门针对生物医学领域精心设计的开源LLM,通过量化和模型合并技术进行了效率优化。

表2:我们构建的ADQA基准测试实验结果。每个数据集名称后面标有样本量。每个指标的最佳结果以粗体显示,次佳结果以下划线显示。“AVG”列表示四个子数据集上的平均准确性得分。


检索增强LLM


此外,我们还将我们的方法与生物医学领域中几种具有代表性的检索增强LLM进行比较。Almanac Zakka等人 (2024) 是一种新颖方法,利用OpenAI的GPT模型与Qdrant向量数据库集成,用于保存从本地语料库、网络搜索和计算器中检索的外部知识源,旨在回答开放领域的临床问题。像Almanac一样,Lozano等人 (2023) 引入了Clinfo.ai,这是一个开源的端到端检索增强LLM(GPT),用于使用从PubMed搜索引擎获取的科学文献概要来回答医学问题。我们采用与我们相同提示的Almanac和Clinfo.ai来回答多项选择问题,以适应ADQA基准测试。最后,我们实现了一个简单的检索增强GPT基线,其中的CoT提示与我们提出的DALK类似。所有使用的GPT模型均设置为GPT-3.5-turbo,如下一段所述,以确保一致。


实施细节

我们使用生成方法构建的知识图(?⁢??⁢?⁢?)进行主要实验,并在第4.5节中对具有RE方法的知识图进行消融研究(?⁢??⁢?⁢?⁢?)。我们使用版本为“gpt-3.5-turbo-0301”的GPT-3.5-turbo,并将采样温度设定为0.7。我们利用所有生物医学LLM基线的7B版本。对于RAG方法,我们将每个文档拆分成最大长度为128,并检索出最相关的三个文档作为LLM推理的支持证据。我们在自我感知知识检索中将参数 ? 设定为5,并在第5.2节中对其进行进一步分析。


4.3主要结果

表2显示了我们的ADQA基准测试实验结果。我们注意到,在应用动态共增强框架后,DALK的性能超越了其他生物医学LLM和RAG方法的整体性能。它在所有子数据集中始终实现了最佳或次佳的准确性得分,并获得最高的AVG得分。此外,与普通的GPT-3.5-turbo相比,它的显著改进强调了我们方法在领域特定ADQA中的有效性。


此外,我们观察到生物医学专用LLM的性能通常落后于GPT-3.5-turbo。我们将这种差异归因于这些生物医学LLM的规模较小。尽管它们在一般医学环境中可能表现得足够好,但在需要更多领域特定知识的AD情景中,它们表现不佳。对于GPT-3.5-turbo与各种RAG方法相结合的情况,大多数RAG方法均提升了模型的性能。其中,与Clinfo.ai一起的GPT-3.5-turbo带来了最显著的改进,将准确性得分从67.1提高到70.1,相比普通的GPT-3.5-turbo。


然而,值得注意的是,原始的Clinfo.ai需要访问PubMed API,构成一个外部资源。当我们禁用此访问并仅在Clinfo.ai检索系统中使用与DALK相同的语料库时,它带来的改进变得微不足道,并且无法与我们的方法相提并论。由于空间限制,我们在附录D中提供了更多具有不同超参数的RAG结果。


4.4自我意识知识检索的消融研究


表3:消融研究结果,包括有和没有我们提出的自我意识知识检索。



4.5知识图谱构建的消融研究

表4:生成构建和RE构建的消融研究结果。

表4展示了使用生成构建的知识图和RE构建的知识图进行的消融研究结果。令人惊讶的是,尽管RE方法生成了一个规模更大、三元组更多的知识图,但从中采样的知识竟然导致了ADQA性能的显著下降。在对这两个构建的知识图进行手动检查后,我们发现采用RE构建方法的LLMs更倾向于错误地将关系分配给两个无关的实体,这一点已经被之前的研究Wan等人(2023)揭示。相比之下,生成构建方法专门输出LLMs确信支持的三元组,从而产生一个规模更小但更精确的知识图。在知识图的构建中,覆盖率和准确性之间的权衡突显了LLMs中去噪的重要性。


5进一步分析

5.1共增强分析

图3:知识图谱的大小(三元组数量)与KG增强版GPT-3.5-turbo随时间的性能(准确性)。


5.2超参数分析

在本节中,我们对自我感知检索模块的检索数量 ? 进行超参数分析。我们为 ? 选择了一组值([1,3,5,10,20,30]),并在图4中展示了实验结果。我们展示了在不同 ? 上的MedQA、MedMCQA、QA4MRE和AVG的准确度分数。我们发现当 ? 较小时,递增到它可以提升性能。在出现最佳性能后,持续增加 ? 的值会导致模型准确度得分平稳下降。这个结果表明排名靠前的知识更有帮助,而排名在后面的知识则不太有用,从而成功验证了LLMs进行精细化知识重新排名的能力。

表5:展示DALK有效性的案例。问题是:“对抗阿尔茨海默病神经纤维缠结的大脑区域是:A. 视觉联想区B. 内嗅皮质C. 颞叶D. 外侧膝状体”

图4: 在MedQA、MedMCQA、QA4MRE和AVG中的不同自我感知知识检索设置中,以及平均得分(AVG)。

此外,我们发现最佳的 ? 值与每个单个数据集中查询的长度相关。例如,在MedQA中(平均查询长度为107.4),当 ?=10 时显示出最佳性能,而在MedMCQA和QA4MRE中,最佳性能分别出现在 ?=5 和 3。这与我们在第4.4节中的发现一致,即更长的查询对应于更大且更嘈杂的子知识图谱。


5.3在ADQA基准上的敏感性分析

在本节中,我们通过对AD相关关键字进行留一评估,对我们构建的ADQA进行了敏感性分析。我们通过从关键字列表中删除具有每个关键字的样本,并计算剩余样本的AVG分数来进行。正如表6中所示的结果,我们发现并非所有关键字都包含在我们的ADQA基准中。值得注意的是,在ADQA中缺少与关键字“CSF生物标志物”、“神经发生”、“PET淀粉样”,“PET Tau”,“Tau磷酸化”对应的样本。我们认为,未来基准AD相关知识的一个关键工作是收集QA样本,以涵盖这些缺失的关键字。此外,分析删除与每个关键字相关联的样本后的性能变化,可为确定关键字与AD的相关性提供见解。

           表6:ADQA基准的敏感性分析,采用AD相关关键字的留一评估。


5.4案例研究

我们在表5中放了一个示例来展示DALK的功效。我们注意到,虽然基于路径的子图包含了排除选项C的相关知识,但它仍然涉及其他不相关信息,最终未能促使LLMs产生正确答案。相比之下,我们的自我意识知识检索方法成功地选择了与给定问题最相关的顶部3个三元组,并导致了正确的答案D。

6结论

在这项研究中,我们首先分析了采用现有基于LLMs的方法在特定于AD领域中的主要局限性。为了解决这些问题,我们提出了一种新颖的方法,将大型语言模型和知识图谱合并在阿尔茨海默病的背景下。我们的团队为大型语言模型和知识图谱的完善提供了创新的动态协同增强框架。

最初,我们的方法从非结构化科学文献中提取结构洞见,为AD打造一个专业化知识图谱。随后,我们采用了一种粗到细的抽样技术,结合独特的自我感知知识检索策略,从知识图谱中准确定位相关信息。

我们在构建的ADQA基准测试中进行的广泛评估展示了我们方法的有效性,并为LLMs和知识图谱在AD背景下的协同作用提供了进一步线索。将来,我们将在采用和基准测试LLMs在AD领域方面进行更多探索。

7限制

在我们的AD-KG开发中,我们的主要关注点在于探索提取相关实体之间关系的两种不同方法。对于实体识别,我们直接使用强大的PubTator注释器,而没有涉及LLMs在此上下文中的使用。然而,我们观察到LLMs在3.2.1节中也展示出了有希望的实体提取能力。我们将将来的工作推迟到使用LLMs提取实体以构建KG的方法的完善。

此外,我们的工作的一个重要贡献是建立ADQA基准。然而,用于构建ADQA的数据集主要由医学院考试题组成,可能与支持AD-KG的科学文献存在领域差距。一种潜在的解决方案是利用PubmedQA Jin等人(2019年); 但是,由于数据量有限,这一方法受到了阻碍。将来,我们将继续收集与AD相关的QA样本,并扩大我们ADQA基准的规模。

8  伦理声明

我们已经熟悉并尊重ACL《伦理守则》中规定的道德准则。文章中构建的知识图基于PubMed上发表的科学文献。研究中使用的ADQA数据集也来自公开可获取的医学问答数据集,并且做了适当的引用。我们努力确保我们的研究遵守伦理原则,不会引起任何安全或隐私问题。虽然在我们的多项选择问答分析中没有观察到,但我们认识到在一般医学问答任务中使用预训练的LLM可能存在事实性错误和幻觉的可能性,并且目前我们不建议将这些模型应用于实际环境中。

9 参考文献和附录

[2405.04819] DALK: Dynamic Co-Augmentation of LLMs and KG to answer Alzheimer's Disease Questions with Scientific Literature (arxiv.org)

https://arxiv.org/abs/2405.04819


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询