我要投稿

KG+大模型用于生物医学研究设计思路–HeCiX：兼看多模态实体链接框架思路UniMEL

发布日期：2024-07-25 08:42:34 浏览次数： 2263

今天是2024年7月25日，星期四，北京，天气雨。

本文来看2个工作，一个是多模态实体链接进展：UniMEL基于统一框架，一个是知识图谱和大模型用于生物医学研究HeCiX，两个都是知识图谱的范畴。

供大家一起参考并思考。

一、知识图谱和大模型用于生物医学研究HeCiX

关于知识图谱与大模型进展。集成知识图谱和大模型用于生物医学研究，《HeCiX: Integrating Knowledge Graphs and Large Language Models for Biomedical Research》(https://arxiv.org/pdf/2407.14030)

先看主要结论：

问题识别：临床试验的高失败率（约90%）指出了在目标验证和药物优化方面存在的问题。
HeCiX-KG的创建：提出了一个新的知识图谱，HeCiX-KG，结合了ClinicalTrials.gov的临床试验数据和Hetionet的疾病及基因领域知识。
知识图谱的构建：HeCiX-KG专注于六种特定疾病，整合了来自两个数据源的信息，构建了一个包含6,509个节点和14,377条边的图谱。
系统整合：通过使用LangChain，HeCiX系统将HeCiX-KG与GPT-4大型语言模型集成，允许用户通过自然语言查询与知识图谱进行交互。
查询处理流程：用户提交自然语言查询，系统将其转换为Cypher查询语言（CQL）查询，检索知识图谱中的相关信息，并以人类可读的格式显示结果。
实验与评估：使用RAGAS框架对HeCiX的性能进行了评估，包括忠实度、答案相关性、上下文精确度和上下文召回率等指标。
结果：HeCiX在临床相关问题的回答任务中表现出色，提供了更广泛和深入的数据范围。
比较分析：与其他大型语言模型相比，HeCiX在处理与临床试验相关的查询方面表现出优势。
局限性：尽管有积极的结果，但论文也指出了模型性能的不确定性和需要在更广泛的疾病范围内进行测试以确保系统的稳健性。

再看知识图谱构建：

更具体的，我们可以看看知识图谱的构建过程，HeCiX-KG是通过从Hetionet和ClinicalTrials.gov提取和整合六种特定疾病的相关数据来构建的。所得知识图谱有6,509个节点和14,377条边。构建过程包括数据提取、模式设计、实体-关系映射和图谱填充。

首先，HeCiX-KG是由两个主要的数据源构建：Hetionet和ClinicalTrials.gov。将它们的数据整合到单一的知识源中，并包括与六种特定疾病相关的数据，即白癜风、特应性皮炎、斑秃、黑色素瘤、癫痫和甲状腺功能减退症。

Hetionet是一个高度互联的知识库，它结合了来自29个不同数据库的数据。它包括总共47,031个节点，涵盖11种类型：疾病、化合物、基因、症状、副作用、生物过程、分子功能、解剖学、细胞成分、途径和药理学类别。为了构建HeCiX-KG，提取了Hetionet的一个子图，包含与六种选定疾病相关的数据。这个子图总共包含1071个节点和1125个关系。

ClinicalTrials.gov提供了大量关于各种疾病和状况的临床试验和研究的信息。虽然ClinicalTrials.gov的记录总数超过500,000，该研究集中在六种选定疾病的1200条记录的子集，包含5,454个节点和11,466条边。这个子集中的节点被分类为9种类型：疾病、主要研究者（PI）、研究、条件、阶段、地点、干预措施、年龄和性别，关系类型包括10种类。

在Schema方面，设计如下：

基于这个schem，最终得到了一个包含6,509个节点和14,377条边的知识图谱。

最后看使用LangChain将其与GPT-4集成：

为了提高HeCiX-KG的可用性，该工作开发了HeCiX系统，使用LangChain将知识图谱与GPT-4集成。具体来说，使用LangChain系统中的GraphCypherQAChain组件来进行集成。

如图2所示，整个查询处理流程如下：

用户查询输入：用户向LangChain提交自然语言提示。
查询和提示处理：用户的问题与一组提示模板结合，然后发送给GPT-4。
Cypher查询生成：GPT-4根据用户的输入生成Cypher查询，然后将其发送回LangChain。
数据库查询：LangChain在HeCiX-KG上执行生成的Cypher查询。
原始结果检索：HeCiX-KG将原始查询结果（即“完整上下文”）返回给LangChain。
上下文转发：LangChain将完整上下文转发给GPT-4进行解释，并转换为人类可读的格式。
人类可读响应生成：GPT-4根据发送给它的完整上下文生成人类可读的响应，然后将其发送给LangChain。
用户响应：最后，LangChain将人类可读的响应返回给用户，从而为用户提供他们查询的答案。

二、多模态实体链接进展：UniMEL基于统一框架

多模态实体链接的目标是将具有多模态上下文的提及映射到知识库中的相应实体。最近可看看一些思路，如：UniMEL基于统一框架的多模态实体链接方法，《UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models》：https://arxiv.org/pdf/2407.16160，代码：https://anonymous.4open.science/r/UniMEL。