我要投稿

《利用医学知识图谱构建用于诊断预测的大语言模型》

发布日期：2024-07-23 07:31:51 浏览次数： 2530

电子病历（EHR）的普遍使用和日常医疗记录的标准化文书实践是患者医疗连续性不可或缺的组成部分，它提供了患者医疗保健轨迹的综合而全面的描述，包括病情状况、诊断和治疗方案等。然而，电子病历中临床叙述的复杂性和冗长性不断增加，往往充斥着冗余的信息，这给医务人员带来了认知超载的风险，可能最终会导致诊断不准确。医生经常跳过冗长和重复的记录，依赖于可能导致诊断错误的决策捷径（即决策启发式）。

目前，人们试图利用语言模型从日常的病程记录中自动生成诊断。此前有人介绍了一种写患者小结的任务，该任务是将病程记录作为输入，进而生成现有实际诊断的小结。他们从公开的电子病历数据集（叫做“重症监护医疗信息集市III ，MIMIC-III”）中标注了一组病程记录。“生物医学自然语言处理2023共享任务”建立在这项工作的基础上，提供了更多的注释记录，吸引了专注于开发解决方案的多方努力。这些先前的研究利用了像T5和GPT这样的语言模型，表明人们对应用生成式大语言模型（LLM）作为解决方案越来越感兴趣。与由大语言模型已显示出前景的传统语言任务不同，自动诊断生成是一项生死攸关的任务，需要极高的准确性和可靠性来确保患者安全和优化医疗效果。对可能导致危及生命事件的可能误导和幻觉信息的担忧，阻止了它们被用于诊断预测任务。

统一医学语言系统（UMLS）是美国国家医学图书馆（NLM）开发的综合资源，已被广泛应用于自然语言处理研究。它作为一个医学知识库，促进了生物医学信息的整合和检索。它提供概念词汇和语义关系，使医学知识图谱（KG）的构建成为可能。先前的研究利用统一医学语言系统的知识图谱进行信息提取和问答等任务。挖掘诊断相关知识尤其具有挑战性，原因有两个：与电子病历中患者的主诉、病史和症状相关的高度特异性因素，以及知识图谱中包含的用于诊断决策的450万个概念和1500万个关系的巨大搜索空间。

在本项研究中，作者们探索了利用知识图谱作为外部资源来增强和优化用于生成诊断的大语言模型。此项工作不仅受到自然语言处理领域用知识图谱增强和优化大语言模型的潜力的推动，还受到医学教育和心理学研究中的理论探索的推动，这些都揭示了临床医生所采用的诊断决策过程。形成诊断决策需要检查患者数据，检索封装的医学知识，以及制定和测试诊断假设，这也被称之为临床诊断推理。作者在此提出了一种新的图谱模型，命名为“医生.知晓” (即“诊断推理知识图谱”英文的巧妙缩写)，它检索关于疾病病理的前N个特定病例的知识路径，并将它们输入基础大语言模型，从而提高诊断预测的准确性。本研究的主题是两个不同的基础模型：T5（以可微调而闻名）和沙箱化的ChatGPT（一个强大的大语言模型），探索零样本提示（零样本提示的定义是直接向大语言模型提出任务，但不提供如何执行的方法或者步骤）。