AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


《利用医学知识图谱构建用于诊断预测的大语言模型》
发布日期:2024-07-23 07:31:51 浏览次数: 1887


电子病历(EHR)的普遍使用和日常医疗记录的标准化文书实践是患者医疗连续性不可或缺的组成部分,它提供了患者医疗保健轨迹的综合而全面的描述,包括病情状况、诊断和治疗方案等。然而,电子病历中临床叙述的复杂性和冗长性不断增加,往往充斥着冗余的信息,这给医务人员带来了认知超载的风险,可能最终会导致诊断不准确。医生经常跳过冗长和重复的记录,依赖于可能导致诊断错误的决策捷径(即决策启发式)。


目前,人们试图利用语言模型从日常的病程记录中自动生成诊断。此前有人介绍了一种写患者小结的任务,该任务是将病程记录作为输入,进而生成现有实际诊断的小结。他们从公开的电子病历数据集(叫做“重症监护医疗信息集市III MIMIC-III”)中标注了一组病程记录。“生物医学自然语言处理2023共享任务”建立在这项工作的基础上,提供了更多的注释记录,吸引了专注于开发解决方案的多方努力。这些先前的研究利用了像T5GPT这样的语言模型,表明人们对应用生成式大语言模型(LLM)作为解决方案越来越感兴趣。与由大语言模型已显示出前景的传统语言任务不同,自动诊断生成是一项生死攸关的任务,需要极高的准确性和可靠性来确保患者安全和优化医疗效果。对可能导致危及生命事件的可能误导和幻觉信息的担忧,阻止了它们被用于诊断预测任务。


统一医学语言系统(UMLS)是美国国家医学图书馆(NLM)开发的综合资源,已被广泛应用于自然语言处理研究。它作为一个医学知识库,促进了生物医学信息的整合和检索。它提供概念词汇和语义关系,使医学知识图谱(KG)的构建成为可能。先前的研究利用统一医学语言系统的知识图谱进行信息提取和问答等任务。挖掘诊断相关知识尤其具有挑战性,原因有两个:与电子病历中患者的主诉、病史和症状相关的高度特异性因素,以及知识图谱中包含的用于诊断决策的450万个概念和1500万个关系的巨大搜索空间。


在本项研究中,作者们探索了利用知识图谱作为外部资源来增强和优化用于生成诊断的大语言模型。此项工作不仅受到自然语言处理领域用知识图谱增强和优化大语言模型的潜力的推动,还受到医学教育和心理学研究中的理论探索的推动,这些都揭示了临床医生所采用的诊断决策过程。形成诊断决策需要检查患者数据,检索封装的医学知识,以及制定和测试诊断假设,这也被称之为临床诊断推理。作者在此提出了一种新的图谱模型,命名为“医生.知晓” (即“诊断推理知识图谱”英文的巧妙缩写),它检索关于疾病病理的前N个特定病例的知识路径,并将它们输入基础大语言模型,从而提高诊断预测的准确性。本研究的主题是两个不同的基础模型:T5(以可微调而闻名)和沙箱化的ChatGPT(一个强大的大语言模型),探索零样本提示(零样本提示的定义是直接向大语言模型提出任务,但不提供如何执行的方法或者步骤)。


本文作者的工作和贡献分为两个主要部分:1、设计和评估了“医生.知晓”, 这是一个基于图谱的模型,它选择具有可解释路径的前N个可能诊断;2) 证明了“医生.知晓” 作为一个附加模块,增强和优化预训练语言模型在生成相关诊断中的作用和实用性。


本项研究提出并解决了一个新的、令人兴奋的、但在自然语言处理诊断生成领域尚未得到解决的问题,即利用知识图谱的力量来实现基础模型的可控性和可解释性。通过检查基于知识图谱路径的提示语对现实世界医院数据集上的基础模型的影响,作者努力为可解释的人工智能诊断路径做出贡献。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询