AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


医学领域大型语言模型和多模态大型语言模型的综合研究
发布日期:2024-07-14 11:22:58 浏览次数: 2572 来源:南极星医学AI笔记


链接:https://arxiv.org/abs/2405.08603

原标题:A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine

日期:Submitted on 14 May 2024

自ChatGPT和GPT-4发布以来,大型语言模型(LLMs)和多模态大型语言模型(MLLMs)因其强大的理解、推理和生成能力而受到广泛关注,从而为人工智能与医学的结合提供了新的范例。这项调查全面概述了LLMs和MLLMs的发展背景和原理,并探讨了它们在医学中的应用场景、挑战和未来方向。具体来说,本调查首先关注范式转变,追踪从传统模型到LLMs和MLLMs的演变,总结模型结构以提供详细的基础知识。随后,调查详细介绍了构建、评估和使用LLMs和MLLMs的整个过程,逻辑清晰。接下来,为了强调LLMs和MLLMs在医疗保健中的重大价值,我们调查和总结了6个有前景的医疗保健应用。最后,调查讨论了医学LLMs和MLLMs面临的挑战,并提出了将人工智能与医学后续整合的可行方法和方向。因此,这项调查旨在为研究人员提供有关LLMs和MLLMs的背景、原理和临床应用的宝贵且全面的参考指南。

CCS概念:• 计算方法学 → 自然语言处理;• 应用计算 → 健康信息学;• 计算机系统组织 → 神经网络。

附加关键词和短语:大型语言模型,多模态大型语言模型,医学,医疗保健,临床应用

图1. 构建和评估医学LLMs和MLLMs的过程。

ACM引用格式:

肖汉光,周飞中,刘星月,刘天齐,李志鹏,刘鑫,黄晓璇。2024年。《医学领域大型语言模型和多模态大型语言模型的综合研究》。ACM计算调查。1, 1 (2024年5月),44页。https://doi.org/XXXXXXX.XXXXXXX

1 引言

自从Transformer [203]被引入以来,自然语言处理(NLP)和计算机视觉(CV)领域发生了一场范式的转变。Transformer强大的并行计算能力和自注意力机制使得能够整合大量的训练数据,为LLMs和MLLMs的发展奠定了基础[160]。迄今为止,一系列基于Transformer的LLMs和MLLMs已经出现(本调查主要关注视觉-语言模态),LLMs如PaLM系列[6, 34],GPT系列[16, 149]和LLaMA系列[192, 193],MLLMs如Gemini[185],GPT-4[1]和Claude 3[7]。由于它们在理解、推理和生成方面的强大能力,它们在各种下游任务中取得了最先进的结果,包括文本生成、机器翻译和视觉问题回答(VQA)。LLMs和MLLMs展现出越来越强大的泛化能力,它们的影响扩展到医学领域,加速了人工智能与医学的整合[186, 188]。特别是,谷歌的Med-PaLM 2[171]在美国医学执照考试(USMLE)[83]中取得了86.5分的成绩,达到了医学专家的水平[267],进一步展示了LLMs在医学领域的巨大潜力。此外,更多的医学LLMs和MLLMs,如ChatDoctor[116],LLaVA-Med[107]和XrayGLM[211],代表了人工智能为医学领域提供的新途径,为后续的医学报告生成[201, 202, 217]、临床诊断[168, 195, 212]、心理健康服务[30, 126]以及一系列其他临床应用提供了潜在的解决方案。

尽管LLMs和MLLMs在医学领域取得了学术上的突破,但医院训练自己的医学LLMs和MLLMs并将它们部署到实际临床应用中仍然存在一定的挑战。首先,训练需要大量的医学数据,这些数据往往成本高昂且需要医学专家进行标注,同时还会引发关于数据隐私[257]的担忧,所有这些都将对模型开发提出特别的挑战。其次,LLMs和MLLMs庞大的参数和计算量要求大量的计算资源进行训练和部署[143, 157],这大大提高了医院采用LLMs和MLLMs的门槛。第三,与传统的深度学习模型不同,作为一种交互式生成模型,医学LLMs和MLLMs不仅需要考虑其医学专业知识,还需要考虑其遵循指令的能力[123, 149, 251]、安全性以及伦理问题[38],这需要额外的训练策略。为了提高模型在这些方面的性能,需要额外的训练策略。第四,由于LLMs和MLLMs强大的通用能力,它们不再像传统模型那样针对单一任务[64, 264],因此除了在基准数据集上评估它们的准确性外,还需要更全面的评估,评估它们在伦理、偏见和毒性[38]等方面的表现同样重要。此外,医学领域的LLMs和MLLMs的发展仍处于早期阶段,它们的应用场景尚不明确。而且,它们还面临一系列挑战,如幻觉[81, 165, 198]、缺乏新颖性[188]等问题,这些问题显著阻碍了LLMs和MLLMs在实际临床应用中的使用。

为了解决上述问题,本调查首先从范式转变的角度审视了LLMs和MLLMs的背景。随后,它总结了当前医学LLMs和MLLMs的主流架构,并收集了目前存在的医学LLMs和MLLMs。在此之后,调查收集了与医学相关的数据集,并以清晰、逻辑的方式阐述了从构建到评估的医学LLMs和MLLMs的整个过程,如图1所示。为了最大化LLMs和MLLMs在临床环境中的作用,调查提供了一些使用LLMs和MLLMs的实际建议。此外,为了强调LLMs和MLLMs在医学中的潜在重大影响,本调查总结了它们在临床医学中的应用,并分析了它们当前的局限性以及可能的解决方案。

与本次调查相关的文章相比,它们倾向于将MLLMs归类为LLMs,并且主要关注讨论LLMs,缺乏对MLLMs的详细调查[64, 267]。此外,更多的文章集中讨论了LLMs在医学中的应用和影响,而在技术方面的深入讨论则不足[14, 148, 157, 186, 188],如数据集、模型结构和构建方法等。相比之下,本调查不仅涵盖了LLMs和MLLMs的背景和原理,还讨论了它们在医学中的应用和影响,内容上呈现了清晰的逻辑结构以及实质性的深度和广度。总之,我们的贡献可以概括如下:

• 我们不仅对医学领域的LLMs进行了调查,还广泛总结了医学领域的MLLMs,提供了两者的发展背景和结构的概述和总结。这为医学专业人士和研究人员提供了理解LLMs和MLLMs的详细基础知识。

• 我们以清晰、逻辑的方式阐明了从训练、评估到利用LLMs和MLLMs的整个过程,包括预训练方法、微调方法、评估方法和使用技巧,以及相关的医学数据集。这为医学专业人士和研究人员提供了一个关于构建和利用医学LLMs和MLLMs的详细操作指南。

• 我们总结了LLMs和MLLMs在医学中的应用,以及目前在临床实践中存在的局限性和可能的解决方案。这为医学专业人士和研究人员提供了一个有价值的参考指南,用于后续的应用开发。

图2. 调查的整体结构。第2节至第5节偏向于原理;第6节和第7节偏向于应用和影响。

通过本次调查中的综合细节,我们的目标是加速临床医学相关产品中LLMs和MLLMs的发展,进一步促进人工智能与医学领域的融合。本次调查的整体结构如图2所示:第2节提供了LLMs和MLLMs发展背景的概述。第3节介绍了现有LLMs和MLLMs的模型结构,并解释了各种结构之间的差异。第4节总结了构建医学LLMs和MLLMs的方法。第5节介绍了LLMs和MLLMs的评估方法和使用技巧,以充分发挥它们的潜力。第6节探讨了医学LLMs和MLLMs在当前阶段的可能应用。第7节重点讨论了LLMs和MLLMs在临床应用中的挑战和局限性,以及可能的解决方案。最后,第8节提供了本次调查的结论。总之,对于那些寻求理解医学LLMs和MLLMs的专业知识和原理的人来说,建议阅读第2节至第5节;对于对医学LLMs和MLLMs在医学中的应用、挑战和未来可行方向感兴趣的人,建议阅读第6节和第7节。

2 LLMS和MLLMS的背景

在本节中,我们将整个自然语言处理(NLP)领域的发展划分为四个阶段,以范式转变为中心:(1)监督学习;(2)无监督预训练和微调;(3)无监督预训练和提示;(4)从文本到多模态。我们将从第2.1节到第2.4节回顾LLMs和MLLMs在上述四个阶段的发展。此外,最近的研究[265]已经证明了高质量数据集对LLMs和MLLMs的影响,因此我们将在第2.5节分析从大规模数据集向高质量数据集过渡的近期趋势。

2.1 监督学习

监督学习[21]是机器学习中的一个常见范式,其中的策略包括优化如下所示的损失函数:

其中第一项代表经验风险,第二项代表正则化项。具体来说,监督学习涉及训练模型学习输入变量?和输出变量?之间的映射?,目的是最小化?(?; ?)和?之间的差异。在这里,?表示模型参数,?可以是手工提取的特征或原始文本,而?作为监督信息,可以是类别标签、文本或其他形式。

在预训练方法变得流行之前,监督学习范式在自然语言处理(NLP)领域是主流。早期的NLP严重依赖于特征工程,其中研究人员需要从数据集中提取和选择特征,然后利用这些特征来完成特定的任务,如文本分类和机器翻译。随着深度学习的兴起,模型可以端到端地训练,研究的重点从特征工程转移到模型架构设计,其中基于卷积神经网络(CNN)和长短时记忆网络(LSTM)的模型尤为突出。在NLP的监督学习时代,我们见证了研究重点从特征选择转移到模型架构设计,即从特征工程到结构工程的转变。

2.2 无监督预训练和微调

监督学习依赖于注释数据集进行训练,这些数据集为模型优化提供了明确的标准[39]。然而,对于某些任务,特别是在医学领域,由于专业注释者的稀缺性和注释过程的复杂性,获取足够的注释数据可能具有挑战性[257]。自从2017年引入了Transformer[203]之后,NLP中的学习范式发生了巨大变化,监督学习范式逐渐被边缘化[127]。

基于Transformer架构,GPT[160]和BERT[46]通过在大量未标记文本上执行无监督预训练,然后通过为下游任务设计适当的目标函数进行监督微调,实现了当时的最新结果。GPT和BERT的提出在NLP中引入了一种新范式,即无监督预训练和微调[46, 160, 237]。在这个范式中,利用Transformer的高度可扩展性,模型最初在大规模未标记数据上以无监督方式使用诸如掩码语言建模(MLM)或下一句预测(NSP)(详见第4.2节)等任务进行训练,随后使用相应的监督目标适应目标任务[160]。这种范式的优点在于:1) 预训练数据可以来自任何未标记的文本语料库,从而摆脱了监督学习需要足够注释数据的限制[264];2) 在大规模未标记数据上训练模型使其能够学习更通用和抽象的语言表示,增强了其泛化能力;3) 在微调过程中,只需为特定于下游任务设计相应的目标函数,无需进行广泛的任务特定架构修改,这促进了从结构工程到目标工程的转变。

2.3 无监督预训练和提示

尽管像GPT和BERT这样的模型在机器翻译、情感分析和问答(QA)等下游任务上取得了最先进的结果,但它们仍然需要针对不同的下游任务进行特定任务的微调。为了构建一个能够处理各种任务而无需特定微调的通用语言模型,Radford等人[161]从互联网上收集了超过800万份文档,总计40GB的文本数据,其中包含了来自各个领域和任务的示例,并在该数据集上训练了GPT-2。GPT-2在8个语言建模基准测试中的7个上取得了最先进的结果,并且没有进行任何特定任务的微调。除了语言建模任务,GPT-2还展示了在零样本设置中执行各种任务的能力,证实了模型和数据集规模的增加带来的语言模型性能的显著提升。

图3. 使用英语-法语翻译任务的少量样本演示示例。

为了进一步提高语言模型的泛化能力,Brown等人[16]基于GPT-2将模型大小扩展到了1750亿参数,数据集的扩展更加显著,包括经过过滤的Common Crawl[161]、两个基于互联网的图书语料库以及英文维基百科。通过持续扩大模型和数据集的大小,训练出的GPT-3在能力上实现了质的飞跃,展示了无需微调的强大少样本能力。如图3所示,GPT-3仅凭提供的任务示例就能完成未知任务,有时甚至可以达到之前最先进的微调模型的竞争水平。因此,GPT-3通常被视为LLMs的起点[106, 186]。GPT-3的提出再次革命了NLP的范式,从无监督预训练和微调转向了无监督预训练和提示[127]。尽管这样的模型对于大多数NLP任务已经足够强大,但它们对用户提供的提示非常敏感,提示的质量将直接影响模型的响应质量,这促使研究人员对提示进行了深入研究[141, 209, 221],并引发了从目标工程向提示工程的转变。

2.4 从文本到多模态

受到GPT-3的影响,越来越多的研究人员投入到LLMs的研究和开发中,导致了一系列杰出作品的诞生,如GLM-130B[246]、PaLM[6, 34]和LLaMA[192, 193]。然而,这些LLM只能理解文本,尽管在这一时期多模态工作有所进步,但它们通常需要在新任务上进行微调[68, 245]或者无法生成文本[111, 158]。受到像GPT-3这样的少样本学习者的启发,Alayrac等人[3]从网络上收集了一个大规模的多模态数据集,主要包括文本-图像对和视频-图像对,并使用这个数据集来训练一个名为Flamingo的MLLM。Flamingo能够通过简单的少样本学习直接适应视觉任务,而无需进行任务特定的微调。Flamingo强大的多模态上下文学习和少样本能力确立了它在多模态领域的GPT-3时刻[106],因此我们认为Flamingo是MLLMs的起点[249]。随后,多模态领域出现了更多杰出的作品,如BLIP-2[110]、LLaVA[123]、MiniGPT-4[269],它们都共享一个共同点,即向LLMs添加视觉编码器,并使用额外的模块将LLMs和视觉编码器连接起来,以弥合不同模态之间的差距。这些MLLM利用LLM作为认知引擎,不仅保留了LLM的固有能力[249],还赋予了强大的视觉支持,为人工智能的通用性提供了一个可能的方向。

2.5 高质量数据

LLMs和MLLMs卓越表现的一个显著方面是它们利用大规模训练数据,使它们能够获得可应用于几乎任何语言理解或生成任务的通用表示[265]。然而,这些训练数据中的绝大多数来源于网络,如WebText[161]和Common Crawl,不可避免地存在这些大量网络数据中的某些有害性和偏见,这些也被传递给了LLMs和MLLMs[143]。为了减轻大规模数据集训练的负面影响,并进一步提高模型性能,通常会使用一系列高质量的数据集来微调模型。

例如,InstructGPT[149]使用手工生成和精心整理的高质量数据集进行监督微调(SFT)和强化学习(RL),使模型能够产生更符合用户期望和需求的结果,从而避免产生不准确、不相关或有害的内容。InstructBLIP[41]收集以指令格式整理的数据集来微调模型,增强模型理解和遵循用户指令的能力,从而提高在新任务上的零样本能力。LLaVA使用GPT-4生成高质量指令遵循数据进行指令微调,使其多模态能力更接近GPT-4。特别是,LIMA[265]在LLaMA上仅使用1,000个精心整理的提示和响应进行微调,这些提示和响应都使用了标准的监督损失,在人类偏好和GPT-4偏好评分上都超过了Alpaca[182]和Bard。对LIMA进行的消融实验表明,当扩大数据集大小而无需增加提示多样性时,提高数据质量的好处超过了增加数据量的好处[265]。因此,可以看出,数据工程正在成为研究的新焦点。

在本节中,我们概述了LLMs的发展背景,重点关注从监督学习、无监督预训练和微调到无监督预训练和提示的转变。受到LLMs的启发,多模态领域经历了快速增长,基于LLM基础的MLLMs应运而生。特别是,由于GPT-3和Flamingo的强大少样本能力,我们将GPT-3视为LLM的起点,将Flamingo视为MLLM的起点。随着最近研究探索高质量数据集对LLMs和MLLMs的影响,我们预测数据工程将成为未来的研究焦点。因此,在阐述LLMs和MLLMs的发展背景时,我们主张LLMs和MLLMs的发展重点已经从最初的特征工程转向了结构工程、目标工程,目前则转向了提示工程和数据工程。

3 LLMS和MLLMS的结构

现有的LLMs都是基于Transformer架构构建的,这是一种编码器-解码器框架。因此,这些LLMs根据Transformer架构发展出了三种结构[233, 267]:1) 仅编码器,代表模型如BERT;2) 仅解码器,代表模型如GPT系列;3) 编码器-解码器,代表模型如T5[163]。当前的MLLMs通常在LLM的基础上添加视觉编码器来理解视觉信息,并在视觉编码器和LLM之间添加模态对齐模块[243, 249],以弥合视觉-文本模态之间的差距。为了全面总结现有的医学LLMs和MLLMs,在本节中,我们将分别讨论医学LLMs和MLLMs的模型架构。具体来说,在3.1节中,我们将总结基于上述三种结构的医学LLMs。在3.2节中,我们将讨论医学MLLMs中常见的视觉编码器、LLM骨干和模态对齐方法。为了清晰起见,现有医学LLMs和MLLMs的详细信息提供在表1和表2中。

3.1 LLMs的结构

3.1.1 仅编码器

仅编码器语言模型(LMs)由Transformer的多个编码器层组成,其中BERT是最早且最具代表性的仅编码器LM。受BERT的启发,出现了更多的仅编码器LM,如DeBERTa[66]、ALBERT[99]和RoBERTa[132]。这些仅编码器LM通常采用掩码语言建模(MLM)任务进行预训练,其中句子中的随机标记被遮蔽,要求模型尽可能准确地预测这些被遮蔽的标记。这种预训练任务赋予仅编码器LM出色的自然语言理解能力,因此研究人员也致力于开发医学领域的仅编码器LM[58, 80, 102, 140]。例如,BioBERT[102]在生物医学语料上预训练,并在生物医学命名实体识别、生物医学关系提取和生物医学问答任务上取得了最先进的结果。另一方面,MentalBERT[80]则是在Reddit和Twitter等流行社交平台上收集的各种精神障碍数据集(如抑郁症、焦虑症和自杀倾向)上训练的,使得LM能够在心理健康研究领域得到利用。

尽管医学领域存在许多仅编码器LM,但如果严格分类,上述模型属于预训练语言模型(PLMs)[64, 205],而不是LLMs,因为这些LM大多基于BERT作为基础模型,采用MLM任务进行预训练,随后针对各种下游任务进行微调,并且它们缺乏像GPT-3这样的模型所展示的稳健的ICL和少样本能力。因此,这样的PLMs在后续章节中将不再进一步讨论。

3.1.2 仅解码器

目前,仅解码器是LLMs的主流架构,由Transformer的多个解码器层构建。最早的仅解码器LM是GPT,随后,GPT-3开启了LLMs的新纪元,随之出现了几个杰出的仅解码器作品[6, 34, 149, 192, 193]。这些仅解码器LLM通常采用下一个标记预测(NTP)作为预训练任务。在训练过程中,模型被要求根据所有前序标记预测序列中的下一个标记。这种预训练任务赋予仅解码器LLM出色的生成能力。由于仅解码器LLM如GPT-3在通用领域的出色表现,研究人员也尝试将这样强大的仅解码器LLM应用于医学领域。例如,Med-PaLM 2[171]是在医学数据集上微调PaLM 2[6]得到的,在美国医学执照考试[83]中取得了86.5分的成绩,达到了医学专家的水平。一些研究将医学LLM扩展到其他语言[29, 207, 234, 242, 250],或者扩展到传统医学[232],进一步拓宽了LLMs在医学领域的应用范围和影响。

表1. 现有医学LLMs的详细信息。

1 表中没有仅编码器LLMs,因为大多数仅编码器基础的语言模型属于PLM(预训练语言模型),而不是LLM(大型语言模型)。2"CPT" 表示连续预训练,"IFT" 表示指令微调,"SFT" 表示监督微调,"RLHF" 表示从人类反馈中进行强化学习,"RLAIF" 表示从AI反馈中进行强化学习,"DPO" 表示直接偏好优化。3"AEM" 表示自动评估指标。

与仅编码器LM相比,这些仅解码器LLM使用NTP(下一个标记预测)作为预训练任务,使它们在文本生成方面更为熟练[264]。此外,研究[40, 213]表明,仅解码器LLM在各种下游任务上表现出最佳的几何样本和零样本性能,这是当前仅解码器成为LLM主流框架的一个原因。

3.1.3 编码器-解码器

编码器-解码器LLM直接使用Transformer结构,包括一系列Transformer编码器和解码器。编码器处理输入序列并输出带有上下文信息的表示,解码器利用这些表示进行文本生成[267]。代表性的编码器-解码器LLM包括UL2[183]、T5[163]和GLM[49]。与仅编码器架构和仅解码器架构类似,编码器-解码器LLM也被扩展到医学领域。例如,SoulChat[30]利用了情感对话数据集SoulChatCorpus,在ChatGLM的基础上进行微调,展现了强大的同理心能力,可以在心理咨询中引导用户表达自己并提供合理的建议。

尽管编码器-解码器LLM结合了仅编码器架构和仅解码器架构的优势,平衡了文本理解和生成,但Wang等人[213]已经证明,仅解码器LLM在没有任何微调的情况下在零样本场景中表现最佳,而编码器-解码器LLM需要在一定量的注释数据上进行多任务微调以实现最佳性能。鉴于当前LLM的训练范式仍然是在大规模语料上进行无监督学习,显然仅解码器架构,其在零样本性能方面表现出色,可以更好地利用这类未标记的数据。因此,仅解码器仍然是LLM当前的主流架构。

图4. MLLMs的核心模块和流程。最右侧是三种模态对齐模块。我们认为利用专家模型构建MLLMs的方法是一种提示增强方法,归类于模态对齐模块,以便进一步解释。

3.2 MLLMs的结构

如图4所示,在本节中,我们将详细讨论MLLMs的三个关键模块:视觉编码器、LLM骨干和模态对齐模块。我们将利用专家模型构建MLLMs的方法视为一种提示增强方法[168],并将其与其他模态对齐模块一起讨论。为了帮助研究人员构建他们自己的医学MLLMs,我们在表2中提供了三个模块的实现选择。

3.2.1 视觉编码器

MLLM 通过添加一个视觉编码器来基于 LLM,从而赋予 LLM 视觉能力。具体来说,视觉编码器 ? 的作用是将视觉输入编码为视觉特征,如下所示:

视觉编码器V有多种选择,例如ResNet[65],这是计算机视觉领域的里程碑工作,在当时实现了各种下游任务的最先进水平,并作为开创性MLLM工作Flamingo[3]的视觉编码器。然而,近年来,研究人员更倾向于使用基于Transformer的模型,如ViT[48],而不是ResNet。例如,Qilin-Med-VL[125]使用了原始的ViT作为其视觉编码器,而Med-PaLM M[195]则使用了ViT-e[28]和ViT-22B[43]作为视觉编码器。Chen等人[27]指出,基于对比学习的预训练视觉模型在各种任务中表现优于基于分类的模型,尤其是在定位和视觉-文本理解任务中,当作为MLLMs的视觉编码器时,因此,更多的MLLMs选择使用通过对比学习训练的视觉模型作为其视觉编码器。例如,LLaVA-Med[107]使用了CLIP ViT-L/14[158]作为视觉编码器,而XrayGLM[211]则使用了EVA-CLIP ViT-G/14[52]作为视觉编码器。

总的来说,ResNet作为一个优秀的卷积神经网络,是视觉编码器的良好选择,但研究人员更倾向于使用基于Transformer的ViT模型。此外,基于对比学习的ViT模型,如CLIP-ViT和EVA-CLIP ViT,通常比分类预训练的ViT模型更适合作为MLLMs的视觉编码器。因此,这些通过对比学习训练的ViT模型目前是视觉编码器的首选。

表2. 现有医学MLLMs的详细信息。

3.2.2 LLM骨干

LLM骨干是MLLMs三个重要模块中的核心部分,参数数量最多,赋予MLLMs诸如文本交互、ICL(零样本能力)和推理等能力。MLLMs中LLM骨干的原则如下:

其中 ? 表示 LLM 的响应输出,? 代表 LLM 的骨干,表示文本输入的嵌入令牌,而则是 LLM 可以理解的视觉表示。 的具体含义在方程式 (4) 中解释。

尽管像ChatGPT和PaLM 2这样强大的LLM尚未公开发布,但社区中仍有大量优秀的开源LLM供研究人员选择。在这些LLM中,Meta开发的LLaMA和LLaMA 2是最受欢迎的开源LLM,经常被用作MLLM的LLM骨干。此外,基于LLaMA的微调模型也是LLM骨干的选择,例如Alpaca和Vicuna[32],其中Vicuna-13B的性能超过了ChatGPT和Bard的90%。此外,作为通用LLM的Baichuan 2[230],即使在没有在专业医疗数据上进行微调的情况下,也能在医疗任务中展现出稳健的性能,因此,它成为了LLM骨干的一个有利的选择。

3.2.3 模态对齐

虽然向 LLM 添加视觉编码器使其能够处理视觉输入,但仅在文本数据集上训练的 LLM 无法理解视觉编码器输出的特征因此,需要进行模态对齐,将 转换为 LLM 可以理解的格式,如图方程式 (4) 所示:

其中 ? 表示模态对齐方法, 是 LLM 可以理解的视觉表示。模态对齐对于 MLLM 理解视觉信息至关重要,极大地影响了 MLLM 的多模态能力。在接下来的章节中,我们将介绍四种现有的模态对齐方法:附加交叉注意力层、基于查询的、基于投影的和提示增强。

附加的交叉注意层

附加交叉注意力层在Flamingo中提出,涉及将密集的交叉注意力层插入到冻结的预训练LLM中。这些交叉注意力层的输入来自视觉编码器的输出,通常通过Perceiver Resampler[78]传递,从而减少了视觉-文本交叉注意力的计算复杂度。通过附加交叉注意力层,LLM生成依赖于视觉表示的文本响应。基于Flamingo的后续工作,如Med-Flamingo[144],也使用这些交叉注意力层进行模态对齐。

基于查询的

基于查询的方法可以被视为一种多模态感知器[173],涉及使用一组可学习的查询向量从视觉表示中提取信息。例如,BLIP-2[110]中提出的Q-Former从冻结的视觉编码器中提取与视觉相关的特征,以帮助LLM生成与视觉信息对齐的文本响应。基于此,Jian等人[82]引入了P-Former,专门为语言数据训练,绕过对图像-文本对的依赖,从而提供了一种模态无关且更灵活的方法。同样受到BLIP-2的影响,在医学领域,Chen等人[25]提出了MedBLIP,将这种查询机制扩展到3D医学图像和文本。

基于投影的

基于投影的方法可以被视为一种多模态转换器[173],与基于查询的方法相比,它更为简单,因为它涉及使用简单的投影层将视觉表示从视觉编码器的输出映射到词嵌入空间,从而使LLM能够理解图像。例如,LLaVA-Med、Qilin-Med-VL和XrayGPT[187]使用简单的线性层来映射视觉表示,而MedVIntTE[256]和LLaVA-1.5[122]使用MLP进行这一目的。这些映射的视觉表示与文本表示一起作为LLM骨干的输入。

提示增强

提示增强通常涉及使用专家模型处理图像,并将处理结果与提示模板相结合,将其转换为通用文本,作为LLM的输入提示,从而将视觉信息与文本联系起来。例如,VideoChat-Text[113]使用感知模型将视频信息显式编码为文本描述。它利用InternVideo[216]分析目标动作,T5对描述进行细化以提高清晰度,Whisper[159]进一步增强视频描述的丰富性。在生成详细文本描述后,这些描述与提示模板结合,作为LLM的输入。在医学领域,OphGLM[55]使用分类和分割模型从眼底图像中提取信息,将这些信息整合到结构化文本模板中形成诊断报告,作为LLM的输入。类似地,在ChatCAD[212]中,X射线图像首先输入到训练的计算机辅助诊断(CAD)模型中以获得输出,然后使用提示模板将其转换为自然语言,作为LLM的输入。与基于查询的方法和基于投影的方法相比,提示增强方法利用专家模型,消除了对额外的模态对齐训练的需求,但其有效性取决于专家模型的性能。

尽管上述四种方法各有不同,但它们的思想都是以文本为中心的,即它们利用文本作为模态空间的特点,将视觉信息转换为文本空间,从而使LLM能够理解视觉输入[194]。这些方法不仅实现了视觉-文本对齐,还实现了更广泛的模态对齐。例如,OneLLM[59]采用统一的框架将8种模态映射到文本空间,实现了跨多种模态的对齐。这也为利用更多模态的医学数据(如3D-CT、2D-X射线、1D-ECG数据)训练更全面的医学MLLM提供了可行的方法。

4 医学LLMs和MLLMs的构建

在第2节和第3节中,我们清晰地阐述了LLMs和MLLMs的发展背景和模型架构。基于此,为了帮助研究人员和医学专业人士开发他们自己的医学LLMs和MLLMs,本节总结了可用于训练目的的可用医学数据集,并详细阐述了构建医学LLMs和MLLMs的方法。

4.1 训练数据集

基础模型[106, 264],如GPT-3、LLaMA和PaLM,通常从各种来源收集训练数据,如网页、书籍、研究论文和代码仓库,以增强模型的通用能力。同样,在医学领域,有各种形式的数据集,主要包括电子健康记录(EHRs)、科学文献、问答、对话、医学知识库、网络数据、医学图像-文本对,以及像ChatGPT或GPT-4这样的AI模型生成的优质数据。本节对这些类型的医学数据集进行了简要概述,有关数据集的更多信息可以在表3中找到。

电子健康记录:

EHRs包含个人健康记录,包括基本信息、主要疾病和健康问题的摘要以及主要健康服务记录。医学信息重症监护III(MIMIC-III)[87]是最大的、公开可用和最常使用的EHRs数据集之一,包含大约200万份去标识化的笔记,涵盖13种专业,如心脏病学、呼吸系统和放射学。MIMIC-III数据集为构建医学LLMs提供了显著的便利,正如AMIE[196]和GatorTron[235]所展示的那样,它们都利用了MIMIC-III进行训练。除了MIMIC-III,其他常用的EHRs数据集还包括临床实践研究数据链接(CPRD)[69]和更新的MIMIC-III版本,即MIMIC-IV[85]。

科学文献:

包含准确和权威的医学知识的科学文献,是医学数据集的来源之一。PubMed是最常用于生物医学和生命科学文献的存储库,提供对MEDLINE、PubMed Central(PMC)和NCBI Bookshelf等主要资源的访问。它索引了超过3400万篇生物医学文献文章的引用。PubMed摘要包含大约45亿个单词,使其成为高质量的医学训练数据集。PubMedQA[84]是从PubMed摘要中收集的生物医学问答数据集的一个例子。除了PubMed,PMC是一个流行的科学文献资源,它为PubMed提供免费的全文访问,全文文章包含大约135亿个单词。PubMed和PMC提供高质量医学文献,通常用作其他数据集的来源。例如,PMC-OA[119]、PMC-VAQ[256]和PMC-15M[252]是从PMC中提取的三个生物医学多模态数据集,极大地促进了医学LLMs[31, 191, 222]和MLLMs[107, 144]的发展。

问答:

问答数据集分为两类:判别式问答(discriminative QA)[83, 150]和生成式问答(generative QA)[256]。判别式问答数据集大多包含多选题,而生成式问答则涉及开放式问题。典型的问答数据集包括PubMedQA[84]、MedQA[83]、PMC-VQA[256]和MultiMedQA[170]等,其中MultiMedQA是一个全面的医学问答数据集,包含7个医学问答数据集,涵盖多选题和开放式问题,全面评估LLMs响应的真实性、有用性、准确性和潜在危害。因为问答数据集不仅包含专业的医学知识,还具有简洁性和与临床问答场景相关性的特点,它们主要用于不仅作为模型学习的训练数据集,也作为测试医学LLMs和MLLMs医疗能力的基准。

表3.培训前和微调的医疗数据集汇总

1"EHR" 表示电子健康记录;"QA" 表示问答;"Multiple" 表示该数据集是多种数据类型的混合。2"Instructions" 表示指令微调数据或指令遵循数据,有关详细信息请参阅第4.2.2节或图5。3"AI Synthesis" 表示在数据集开发过程中使用了生成式AI(如ChatGPT和GPT-4)来协助生成数据。

对话:

高质量的预训练语料库,如EHRs、科学文献,可以显著提高LLMs和MLLMs的医学性能。然而,这些数据集只提供基础的理论知识,仅在这些数据集上训练模型可能导致模型缺乏交互能力。在对话数据上微调这些模型可以增强它们与患者交互和理解患者查询和需求的能力[116],因此,研究人员致力于构建高质量的对话数据集来微调模型。例如,HealthCareMagic100k[116]包含大约100K个真实的医患对话,这些对话是从在线医疗咨询网站HealthCareMagic收集的,ChatDoctor[116]和DoctorGLM[227]都使用了这个数据集进行微调。为了避免收集此类真实对话数据集的繁琐过程,包括大规模的过滤和去重,研究人员尝试使用ChatGPT或GPT-4来模拟真实对话场景并生成对话数据集。例如,GenMedGPT-5k[116]是由ChatGPT生成的5K个医患对话。

医学知识库:

医学知识库,如医学图书馆,也包含用于模型训练的医学数据,其中统一医学语言系统(UMLS)[15]是最受欢迎的知识库之一,这是一个由美国国家医学图书馆开发的大型医学术语系统,历时20多年开发,包含约90万个医学概念和200万个医学实体。此外,中国医学知识图谱(CMeKG)[17]提供了关于疾病、药物和症状的医学知识。尽管它包含一些不符合训练数据格式的结构化数据,但可以使用ChatGPT或GPT-4将其处理为通用文本形式。例如,BenTsao[207]利用OpenAI API处理CMeKG,生成了8K条用于SFT的指令数据。

网络数据:

像LLaMA和GPT-3这样的通用基础模型广泛利用网络数据进行训练。同样,在医学领域,也存在大量适合训练的网络医学数据,其来源包括Reddit、Twitter和Wikipedia。例如,TCM-Corpus-1B[232]是一个从百度百科和Wikipedia收集的传统医学数据集。经过数据清洗过程后,TCM-Corpus-1B包含大约20GB的文本信息,为TCM-GPT[232]等模型提供了训练数据。

多模态医学图像-文本对:

医学图像-文本对主要用于训练医学MLLMs。例如,之前提到的PMC-OA数据集,包含从PMC收集的165万医学图像-文本对,用于训练PMC-CLIP[119]和Med-Flamingo等模型。PMC-VAQ在PMC-OA的基础上,利用ChatGPT生成大量多样性和高质量的问题,经过过滤后,最终形成了227K个VQA对。PMC-15M,也源自PMC文章,包含1500万个图表-标题对,比MIMIC-CXR[86]的规模大两个数量级。此外,还有其他一些多模态医学数据集,如ChiMed-VL[125]、RadMD[223]和Open-I[44],为医学MLLMs的发展做出了贡献。

AI生成的数据集:

已经证明,使用ChatGPT生成的海量高质量合成数据微调模型,可以显著提高模型在下游任务中的性能[181]。同样,在医学领域,也有探索使用像ChatGPT或GPT-4这样强大的通用模型生成医学数据的尝试。这些数据包括对话、问答对、指令微调数据[107, 255]等,数据格式不限于文本,还包括多模态。例如,Psych8k[126]是通过将260个真实的生活咨询录音转换为文本,然后使用GPT-4从这些文本中提取问答对创建的,它还生成每个对话的重要信息摘要,以提供更多的上下文信息,从而帮助模型生成更好的响应。LLaVA-MedInstruct[107]是基于PMC-15M的图像-文本对由GPT-4生成的生物医学多模态指令遵循数据集,LLaVA-Med利用该数据集进行微调,在多个基准测试中实现了最先进的结果。

4.2 构建方法

尽管有一小部分医学LLMs和MLLMs是从大规模医学数据集从头开始训练的,但这种方法需要大量的计算资源、成本和时间,尤其是考虑到医学MLLMs不仅涉及LLM骨干,还包括额外的组件,如视觉编码器和模态对齐模块,使得训练成本更高。因此,构建医学LLMs或MLLMs的主流方法是使用医学数据集对通用基础模型进行微调。为了详细概述构建医学LLMs和MLLMs的整个过程,本节首先回顾了通用基础模型的经典预训练方法,然后总结了将通用基础模型转移到医学领域的微调方法。最后,考虑到预训练与计算成本相关的显著性,我们另外介绍了缩放定律[89],以帮助研究人员更有效地设计和训练LLMs和MLLMs,从而避免不必要的计算资源浪费。

4.2.1 预训练方法

对于LLMs,所有预训练方法的目标是使模型具备出色的理解、推理、生成等能力;对于MLLMs,预训练的目标是将视觉特征与文本特征对齐[18],以弥合不同模态之间的差距。接下来,我们将分别介绍LLMs和MLLMs的预训练方法。

遮蔽语言建模:

遮蔽语言建模(MLM)最初在BERT中引入,其思想是随机遮蔽输入标记的一定百分比,然后让模型预测这些被遮蔽的标记。这种训练方法使模型能够学习标记级表示,并且使模型 inherently 双向,因为被遮蔽标记的表示可以从周围单词中学习。此外,MLM任务也适用于多模态领域,在那里,给定一个图像-文本对,随机遮蔽文本标记的一部分,模型被任务重建被遮蔽的标记,基于图像表示和未遮蔽的标记。

下一句预测:

下一句预测(NSP)最初在BERT中引入,其思想是让模型预测两个段落是否在原始文本中相互跟随。这种训练方法使模型能够学习句子级表示并理解两个句子之间的关系。尽管BERT的实验证明了NSP任务在问答和自然语言推理任务中的有效性,但Liu等人[132]表明,移除NSP可以略微提高下游任务的性能,而NSP任务在后续LLMs的发展中被逐渐取代。

下一标记预测:

下一标记预测(NTP)是GPT系列的核心任务,目前是LLMs的主流预训练任务。NTP的思想是模型根据输入上下文预测下一个标记,具体来说,当给定输入文本时,模型为词汇表中的所有标记分配概率,并选择概率最高的标记作为预测输出。由于NTP已被证明更有效[64],并且更有助于提高模型的生成能力,研究人员更倾向于使用NTP作为预训练任务,而不是MLM。

图像-文本匹配:

图像-文本匹配(ITM)是一个二元分类任务,要求模型预测图像和文本是否匹配,目的是迫使模型学习图像和文本表示之间的细粒度对齐[110]。这个任务的关键是将图像特征和文本特征融合成一个单一的向量,这方便作为分类器的输入。为了实现这一点,BLIP-2在Q-Former中引入了ITM任务,以帮助Q-Former迫使查询提取与文本最相关的视觉表示。

图像-文本对比学习:

图像-文本对比学习(ITCL)的目的是使图像表示与文本表示对齐,以最大化信息交互。具体来说,ITCL的主要思想是输入多个图像-文本对到视觉编码器和文本编码器,然后分别计算它们之间的相似性,在获得相应的视觉和文本表示之后,目标是最大化配对正样本的相似性,并最小化其余未配对负样本的相似性[158]。BLIP-2在Q-Former中引入了ITCL任务,以帮助Q-Former迫使查询提取与文本最相关的视觉表示。

图像-文本生成:

图像-文本生成(ITG)是主流的多模态预训练任务,其核心思想是基于NTP任务引入图像作为文本生成的上下文条件。例如,Flamingo使用交叉注意力层将Perceiver Resampler的视觉表示传递给LLM,将视觉信息融入NTP任务。在BLIP-2中,多模态因果自注意力掩码用于将带有视觉表示的查询向量传递给文本标记,使文本生成与图像信息相结合。预训练MLLMs的目的是实现特征对齐,因此在预训练阶段,ITG任务通常只需要简单的图像描述。例如,在LLaVA的预训练过程中,模型被给定一张图像和一个指令提示,并被要求提供图像的简要描述,预测的答案是原始的标题。

4.2.2 微调方法

尽管在大规模数据集上预训练的大型模型在通用领域表现良好,但它们在医学领域表现不佳,因为缺乏特定领域的知识。然而,从头开始训练医学LLMs或MLLMs的成本极高,因此微调是构建此类模型的关键技术[56, 107, 170]。接下来,我们将介绍几种典型的微调方法。特别是,由于本节中微调方法的重点是如何将通用基础模型适应医学领域,我们将连续预训练(CPT)归类为微调方法。

连续预训练:

CPT[205, 224]指的是使用NTP和ITG等方法在医学数据集上继续预训练预训练的基础模型。由于这些基础模型已经表现出良好的性能,CPT使用较少的数据和较少的训练时间就能取得满意的结果。在医学领域,利用CPT的经典模型包括MEDITRON-70B[31],它基于LLaMA 2,使用包含临床指南、PubMed论文和摘要的医学混合数据集进行CPT。在多模态领域,Med-Flamingo在OpenFlamingo[8]的基础上,使用图像-文本交错数据集MTB和图像-文本配对数据集PMC-OA进行CPT。此外,医学MLLMs,如LLaVA-Med、XrayGPT、XrayGLM和Qilin-Med-VL,也在生物医学数据集上进行CPT,以将图像-文本标记的对齐词汇扩展到生物医学领域,或者将生物医学知识注入基础模型。

图5.指令数据的示例。

指令微调:

尽管LLMs和MLLMs在生物医学数据集上进行CPT后能够理解和输出与生物医学相关的知识,但这些模型往往缺乏遵循指令的能力[107, 218]或表现出不可控的行为。指令微调(IFT)[218]的目的是通过在指令数据上微调LLMs或MLLMs,以增强它们遵循各种人类指令的能力。如图5所示,这些指令数据由三个关键组成部分组成:指令、输入和输出,其中输入是可选的。这些指令数据通常是通过使用ChatGPT或GPT-4基于手工整理的种子指令数据[215, 255]或指令模板[218]生成的。在这些指令数据上微调可以显著提高模型理解和遵循指令的能力,从而提高零样本性能[107, 170, 218]。例如,经过指令数据微调的Flan-PaLM在MedQA、MedMCQA和PubMedQA基准测试中优于基线PaLM。

图6.没有通过SFT产生不安全反应的模型的例子。

监督微调:

尽管LLMs和MLLMs在经过IFT后能够显著提高它们遵循用户指令的能力,但它们仍然可能生成无用、不安全或带有偏见的信息,如图6所示。因此,有必要使用高质量的数据集对模型进行监督微调(SFT),同时确保这些数据集既有用又无害。在这里,必须强调CPT、IFT和SFT之间的区别:CPT专注于在大规模医学数据集上进一步训练基础模型,将医学知识融入模型中。SFT和IFT在严格意义上并不区分[64],但在几篇文献中可以找到SFT和IFT之间的细微差异[64, 107, 123, 230]。IFT强调使用指令数据微调模型,以增强其遵循用户指令的能力,同时考虑到医学任务和医学场景的多样性,每个场景都有不同的指令,因此指令数据应该是通用的[267]。另一方面,SFT强调使用高质量的人类注释数据集微调模型,以进一步增强其专业能力,最重要的是使模型与人类偏好和伦理规范保持一致。总之,CPT强调向模型注入医学专业知识,IFT强调增强模型遵循指令的能力,而SFT则专注于使模型与人类偏好和伦理规范保持一致。

从人类反馈中进行强化学习:

从人类反馈中进行强化学习(RLHF)[22, 149]是一种进一步使模型行为与人类偏好和指令保持一致的方法。与之前的三种微调方法相比,RLHF更为复杂,可以分为三个具体步骤[22, 149, 174]:收集人类反馈、训练奖励模型和策略优化,如图7所示。在收集人类反馈的阶段,主要任务是收集比较数据。通常,给预训练模型或监督基线模型一个提示,生成多个输出后,这些输出由专家标注者根据其相对质量进行评估和注释,这些提示和注释的输出构成了比较数据。例如,Zhongjing[234]雇用了6名医学研究生或临床医生作为标注者,根据安全性、专业性和流畅性等维度对模型的输出进行排名,形成了一个比较数据集。在训练奖励模型的阶段,需要在一个收集的比较数据集上训练一个奖励模型,其输出是一个与人类偏好相对应的标量奖励。在策略优化的阶段,通常使用一个新的提示作为模型的输入,基于模型对该输入的响应,奖励模型输出一个标量奖励,最后,通过近端策略优化(PPO)在这些标量奖励上对模型进行微调。值得注意的是,奖励模型的数据质量低于用于SFT的数据[64],因此RLHF通常在IFT和SFT之后进行[22, 193],如果直接从预训练跳到RLHF,依靠这些相对低质量的数据可能不足以实现预期的微调结果。

图7.RLHF的管道。左边是收集人类反馈阶段:每次给定模型的一个提示,标签者对模型中的多个响应进行排名,并收集程序和标记的响应。奖励模型是训练的中间阶段:从收集的数据集中随机抽取一个提示和两个反应,用于训练奖励模型。对的是策略优化阶段:给定一个新的提示,奖励模型根据模型的响应输出一个标量奖励,然后用于策略优化。

从AI反馈中进行强化学习:

从AI反馈中进行强化学习(RLAIF)可以被视为RLHF的一种成本效益高的替代方案,其奖励模型不需要人类注释即可从AI反馈中学习[9]。在医学领域,Zhang等人[250]在IFT和SFT之后从微调模型中采样了多个响应,并使用ChatGPT根据信息性、连贯性、符合人类偏好和准确性等维度对响应进行评分,然后使用这些带有评分的比较数据来训练一个奖励模型。通过AI反馈训练奖励模型的方法解决了RLHF中需要手动标注数据的麻烦,并显著降低了劳动成本。

直接偏好优化:

尽管RLHF和RLAIF使模型能够与人类偏好和伦理规范保持一致,但它们通常需要拟合一个反映人类偏好的奖励模型,然后将强化学习结合起来微调LLMs和MLLMs,这是一个复杂且通常不稳定的过程。直接偏好优化(DPO)[162]是一种更简单、更有效的训练范式,用于使模型与人类偏好保持一致,它跳过了拟合奖励模型的步骤,直接使用偏好数据优化模型。DPO的核心思想是利用奖励函数到最优策略的分析映射,将奖励函数上的损失转换为策略上的损失,从而跳过显式的奖励建模步骤。例如,Qilin-Med[242]在SFT之后直接使用两个公开可用的偏好数据集通过DPO优化模型,确保稳定高效的训练同时使模型与人类偏好保持一致。

参数高效微调:

上述介绍的CPT、IFT、SFT、RLHF、RLAIF和DPO等方法的目标是将通用基础模型转移到医学领域,同时与用户指令和人类偏好保持一致。尽管这些方法所需的训练数据量远小于基础模型的预训练所需,但它们仍然需要高计算成本和开销进行全参数微调。为了解决这个问题,提出了一系列参数高效微调(PEFT)方法,这些方法仅更新模型参数的一小部分,同时保持大部分预训练权重冻结,从而减少计算成本。以下是一些主流的PEFT方法。

前缀调优[115]涉及在输入序列中添加可学习的标记作为前缀,并冻结其他预训练参数。适配器调优[72, 74]在Transformer块中插入神经网络模块,并在微调期间冻结其余预训练参数,只训练插入的模块。LoRA[73]使用全秩权重矩阵的低秩矩阵逼近来更新参数,不仅具有更少的训练参数和更高的训练吞吐量,而且解决了适配器调优中存在的推理延迟问题。提示调优[105]类似于前缀调优,但它只在第一个Transformer层输入标记之前添加可学习的标记。LayerNorm调优[260]在每个注意力块内调整LayerNorm,显著减少了可训练参数。与LoRA相比,使用LayerNorm调优的模型在五个多模态任务上平均性能提高了超过20%[260]。P-tuning[131]也类似于前缀调优,但它只在输入层序列中包含可学习的虚拟标记,标记插入的位置是可选的,不限于前缀。这些PEFT方法专注于高效更新模型参数,而之前讨论的IFT、SFT等方法专注于有效提高模型性能,它们之间并不冲突。通常,PEFT方法与IFT、SFT等类似方法结合使用来微调模型,在经济效益约束下取得更好的性能。

4.2.3 缩放定律

缩放定律[89]是LLM时代的摩尔定律,首次由OpenAI在2020年提出。它描述了模型性能与三个因素之间的关系:模型大小、数据集大小和用于训练的计算量。具体来说,缩放定律指出,当不受到其他两个因素的限制时,模型性能会随着模型大小、数据大小和训练计算量的增加而平稳增长,并且经验性能与每个单个因素之间存在幂律关系[89]。为了实现最佳性能,这三个因素需要同时扩大,研究[71]已经证明模型大小和数据集大小应该成比例增加。通过遵循缩放定律,研究人员可以首先训练小规模的模型,然后外推到更大规模的模型[1, 6, 16, 230]。例如,OpenAI使用缩放定律预测并验证了GPT-4最终损失的成本不到其十分之一。同时,缩放定律揭示了性能与模型大小、数据集大小和训练计算量之间的关系,帮助研究人员更有效地设计和训练大型模型,并合理分配资源。

5 评估方法和使用技巧

随着医学LLMs和MLLMs能力的出现,如何全面评估它们的表现已成为一个关键问题。考虑到生成模型的各种伦理和安全问题[45],迫切需要更全面的基准和评估方法来评估医学LLMs和MLLMs的多种能力,而不仅仅是生成的文本质量。此外,研究人员仍在不断探索LLMs和MLLMs的潜在能力,例如使用一系列提示方法[137, 214, 220, 240, 266]来增强模型性能。为了进一步帮助研究人员和医学从业者理解医学LLMs和MLLMs的整个开发过程,我们在第5.1节讨论了评估医学LLMs和MLLMs的最终且不可或缺的步骤。此外,为了帮助用户发挥医学LLMs和MLLMs更深层次的专业能力,并在临床环境中使用它们,我们在第5.2节介绍了一些实用的使用技巧。

5.1 评估方法

由于医学LLMs和MLLMs的任务和能力多样化,用于评估医学LLMs和MLLMs的基准数据集和评估方法也日益多样化。对于判别式任务(包括单选题和多选题)[83, 84],通常使用准确率来衡量模型性能。对于生成式任务,自动评估指标[109, 118, 151]经常被用来评估模型生成的响应在准确性、流畅性和多样性等方面的表现。然而,这种方法忽视了医学领域中的一些额外关注点,例如可靠性、安全性和与人类价值观的一致性。因此,除了使用自动评估指标来评估医学LLMs和MLLMs之外,研究人员还引入了人工评估和AI评估。需要注意的是,本节不涉及基准数据集的介绍,而是强调三种评估范式:自动评估指标、人工评估和AI评估。

5.1.1 自动评估指标

对于医学LLMs和MLLMs,准确率通常被用来评估它们在MedQA[83]和MedMCQA[150]等选择题数据集上的表现。然而,准确率并不是衡量医学LLMs和MLLMs生成能力的指标,因此需要依赖以下指标进行全面评估。

双语评估 understudy (BLEU) [151] 指标通过计算生成文本和参考文本之间n-gram(长度为n的连续词序列)的相似性来评估生成文本的质量。根据n的值,BLEU分为BLEU-1、BLEU-2、BLEU-3和BLEU-4,这些指标分别测量不同长度的n-gram的相似性,例如BLEU-1测量词级准确率,而BLEU-4更注重文本的连贯性。Gisting Evaluation (ROUGE) [118] 包括ROUGE-N、ROUGE-L、ROUGE-W和ROUGE-S。与BLEU类似,ROUGE-N通过计算生成文本和参考文本之间的n-gram的相似性来评估,但ROUGE-N计算n-gram召回率,而BLEU更注重准确率。ROUGE-L通过计算生成文本和参考文本之间最长公共子序列的长度来衡量它们的相似性,强调文本的连贯性。ROUGE-W在ROUGE-L的基础上通过计算共同子序列的加权方法来构建,为正确匹配的连续文本赋予更大的权重。ROUGE-S是对ROUGE-N的扩展,允许n-gram中的非连续词。Google BLEU (GLEU) [225] 是BLEU的一个变体,它考虑了生成文本和参考文本之间的词汇重叠和顺序等因素,更好地反映了生成文本的流畅性和自然性。Distinct-n [109] 指标通过计算生成文本中独特n-gram的比例来衡量生成文本的多样性。CIDEr [204] 专门设计用于评估图像字幕的质量,考虑了n-gram召回率和精确率,通过赋予稀有n-gram较大的权重来评估模型在生成图像描述时是否捕捉到了关键信息。BERTScore [254] 使用预训练的BERT上下文嵌入来计算句子中每个标记与参考句子中每个标记之间的相似性分数。与基于n-gram的评估指标相比,BERTScore更好地衡量词汇和组合多样性。

在医学领域,大多数模型,如HuaTuoGPT、ClinicalGPT [206]、SoulChat和BianQue [29],利用上述指标来评估模型在生成能力方面的表现。尽管这些自动评估指标在一定程度上反映了模型生成文本的准确性和流畅性,但它们无法捕捉对话的临床质量,也无法评估生成的文本是否与人类价值观保持一致,因此引入了人工评估。

5.1.2 人工评估

人工评估是评估医学LLMs和MLLMs性能的关键方法,因为它可以考虑自动评估指标可能忽视的方面。例如,Tu等人[196]认为,像BLEU和ROUGE这样的指标无法捕捉医疗咨询的临床质量,因此邀请了来自美国、英国和印度的23名医学专家评估模型生成的响应在准确性、适当性和全面性方面的表现。同样,Yang等人[234]雇用了人工专家来评估模型响应的安全性、准确性和伦理影响。Chen等人[30]要求评估者根据内容自然性、同理心水平、有用性和安全性来评估生成的响应。显然,人工评估可以涵盖诸如安全性和有用性等重要方面,这对医学LLMs和MLLMs至关重要。尽管人工评估可以评估医学LLMs和MLLMs的各种能力,但由于专家之间缺乏标准的评估标准,它们本质上是主观的。此外,聘请医学专家还会产生额外成本,因此AI评估是人工评估的可行替代方案。

5.1.3 AI评估

使用与人类价值观一致的高性能AI模型,如ChatGPT和GPT-4,来评估医学LLMs和MLLMs的响应,是目前的主导评估方法[135, 208]。Wang等人[208]在五个自然语言生成评估数据集上进行了实验,证明ChatGPT作为评估工具,在大多数情况下优于自动评估指标,并与人工评估相当。在医学领域,Li等人[107]向GPT-4和LLava-Med提出了医学问题,然后要求GPT-4根据有用性、相关性、准确性和详细程度对GPT-4和LLava-Med的响应进行评分。Liu等人[126]提示GPT-4考虑LLMs的响应是否可接受,以及它们的语气是否类似于人类顾问。尽管AI评估提供了可扩展性和减少人力参与的需求,但它仍然存在局限性。研究[228, 263]表明,作为评估工具,GPT-4倾向于偏好第一个答案,这意味着当多个答案按顺序呈现时,GPT-4通常认为第一个答案更优越。此外,GPT-4也倾向于偏好更长和由自己生成的答案[126]。因此,为了克服与上述三种方法相关的问题,结合使用多种评估方法可能会产生更可靠的结果。此外,利用强化学习或其他方法训练与人类判断标准一致的专门LLMs或MLLMs作为评估工具,可能会克服AI评估的局限性。

5.2 使用技巧

研究人员发现,通过简单调整输入的形式和结构,可以解锁医学LLMs的更深层次的专业能力[146]。因此,一个新的研究领域出现了,即Prompt Engineering [70, 141],其目标是通过各种高效的提示策略提高模型响应的质量,这些策略不需要进一步的训练,并且可以灵活地整合到任何医学LLMs和MLLMs中。为了在研究人员和医学从业者利用医学LLMs和MLLMs处理相关医学任务时最大化模型的医学专业知识,本节结合了LLMs和MLLMs的ICL能力和提示工程,总结了七种常用且高效的使用技巧,如图8所示:零样本、少样本、思维链、自我一致性、思维树、自我完善和最后到最多,这些在LLMs和MLLMs领域被称为提示方法。

零样本和少样本提示:

零样本提示是最简单的提示策略,旨在通过单一指令指导模型执行任务。尽管零样本提示简单明了,只需简要描述任务指令,但这些指令中缺乏的信息限制了模型能力被利用的程度。少样本提示建立在零样本提示的基础上,通过提供额外的示例实例作为演示,解决了零样本提示中信息不足的问题。通过少样本提示,模型可以从示例演示中进行类比学习,以准确执行新任务[117],有效提高模型在各种任务上的表现。值得注意的是,这种少样本能力只在模型超过一定规模时才会出现,而小模型中并不存在[219]。因此,标准的少样本提示策略是在GPT-3中引入的,正是由于GPT-3强大的ICL和少样本能力,我们才将GPT-3视为LLMs的起点。

思维链提示:

思维链(CoT)提示是一种方法,通过提示LLMs或MLLMs生成一系列中间推理步骤,从而提高它们生成的响应的准确性和可解释性[220],旨在模拟人类在解决新问题时认知和推理的过程。CoT作为一种提示策略,与零样本和少样本提示不冲突,并经常与它们结合使用。例如,零样本CoT提示通过在指令中添加“让我们一步一步思考”来显著提高模型性能,而无需提供示例演示[93]。少样本CoT提示提供带有推理步骤的示例,帮助模型学习推理方法,从而在新任务上提高准确性。在医学领域,CoT提示被用于Med-PaLM、Med-PaLM 2和MEDITRON-70B等模型,要求LLMs一步一步思考并提供推理过程,从而提供更具有解释性的诊断结果。此外,CoT的概念可以扩展到训练阶段,例如在模型微调期间引入CoT数据集[134],从根本上增强模型的逻辑推理能力。不幸的是,医学领域尚未发现这样的CoT数据集。

自我一致性提示:

基于CoT提示,Wang等人[214]提出了自我一致性(SC)提示,涉及采样一组不同的推理路径,然后通过边缘化出这些采样推理路径来选择最一致的答案。在推理过程中,正确的答案可能来自多个推理路径,目标是选择所有路径中最一致的答案,即使有一条错误的推理路径,也不会影响最终的一致答案。SC提示特别适合具有复杂推理路径的任务,如数学[214]和医学[146],并且已被证明是有效的。例如,在医学领域,SC提示的使用使得MEDITRON-70B实现了最高的平均准确率,Flan-PaLM也显示出与标准少样本提示相比的显著改进。

思维树提示:

思维树(ToT)提示[240]扩展了CoT提示,形成了一个包含多个思维路径的思维树,其中每个路径都可以视为一个思维,并在问题解决过程中作为中间步骤,具有进一步细分的潜力。ToT提示允许模型在必要时向前看或向后看,从而在需要探索、战略前瞻或初始决策起关键作用的任务中,解决由于任务中从左到右决策过程的限制而导致的模型推理性能不佳的问题。

自我完善提示:

人类通过持续的自我反馈不断改进自己,而神经网络通过迭代反向传播错误和更新参数来提高其性能。借鉴持续反馈和自我改进的思想,Madaan等人[137]提出了自我完善提示,旨在提示模型为其自己的响应提供反馈,并根据反馈改进之前生成的响应,通过几次迭代得到最终响应。

图8.这7种提示方法的示例。我们得出结论,这些方法是受到Kaddour等人[88]的启发。

从最少到最多提示:

虽然CoT提示提供了推理示例来帮助模型学习推理方法并高效解决问题,但它经常在面对比提示中呈现的问题更复杂的问题时遇到困难。为了解决这个问题,周等人[266]提出了从最少到最多的提示,它基于将复杂问题分解为一系列更简单的子问题的想法,并通过按顺序解决这些子问题并使用已解决子问题的答案作为后续子问题的提示,逐步生成最终输出。实验结果表明,从最少到最多的提示使模型能够解决比提示中呈现的问题更困难的问题,并在某些任务上显著优于CoT提示[266]。

图9.llm和mllm在医学上的应用、挑战和未来的发展方向。

6 LLMS和MLLMS在医学中的应用

GPT-4和Med-PaLM 2在医学任务中的出色表现凸显了这些强大的一般或医学LLMs和MLLMs在医学应用中的巨大潜力[103, 145, 171]。为了帮助相关从业者快速了解LLMs和MLLMs在医学中的发展方向,在本节中,我们主要总结了LLMs和MLLMs在医学和医疗保健中的当前潜在应用,如图9所示,并简要讨论了这些模型如何用于执行各种医学任务。

6.1 医学诊断

医学诊断领域的人工智能发展已经几十年[10, 94, 179],尽管取得了一些突破,但其作用主要局限于辅助诊断过程中的任务,例如医学图像分割[226, 268]、病变检测和分类[4, 190]。直到近年来随着LLMs和MLLMs的发展,医生和患者才有望依赖这些大型模型进行端到端的诊断。具体来说,医生或患者可以提供疾病症状的主观描述[116, 207, 227]或医学图像,如X光片[107, 187, 211],而模型可以依靠这些信息以及嵌入的医学知识直接做出诊断,这将极大地增加诊断的灵活性。

目前,Med-PaLM 2作为表现最佳的医学LLM之一,在多个评估轴上生成的消费者医疗问题和对抗性问题答案超过了医生生成的答案[171],证明了医学LLM作为医学诊断助手的可行性。为了进一步扩大LLM作为医学诊断助手的应用范围,研究人员已经对这些模型进行了中文数据集的微调[29, 206, 207, 227, 232, 234, 250],增强了中文环境下的诊断性能。特别是,TCM-GPT [232]在传统中医方面表现突出,在传统中医体检和诊断相关任务上超越了其他模型,促进了传统医学的发展。此外,受到通用MLLM[1, 123, 269]的启发,研究人员开发了多模态医学诊断助手[107, 121, 168, 187, 195, 211, 212],将诊断基础从文本扩展到医学图像,从而提高诊断的可靠性。此外,为了提高医学LLM和MLLM作为诊断助手的诊断准确性,研究人员试图融入检索机制[116, 261],使模型能够从医学网站、Wikipedia或离线医学知识库中检索参考信息。

医学LLM和MLLM作为医学诊断助手为用户提供远程咨询和诊断,提供了一种更灵活的医学诊断方法。然而,由于LLM和MLLM自身的某些局限性[45, 165],目前这些医学LLM和MLLM只能作为医生诊断的辅助方式,生成的诊断结果只能作为参考,不能作为最终诊断结果。

6.2临床报告生成

临床报告是医生为患者撰写的各种标准化文件。手动编写临床报告通常是一项繁琐、耗时但至关重要的任务,无疑增加了临床医生的工作量,降低了工作效率。医学LLM和MLLM拥有丰富的医学知识,擅长生成任务,作为临床报告生成的有效工具。

例如,在医学诊断过程中,医生通常在与患者交流时记录重要信息,以便判断病情或作为其他报告内容来源,医学LLM和MLLM可以作为临床笔记工具来完成这项工作,代替医生[191]。具体来说,医生只需向模型提供与患者交流的记录,模型经过简短处理后,就可以为医生生成医疗笔记[103],而医生也可以提示模型简化医疗笔记,去除复杂细节,生成摘要以便于审查和分析[202]。在诊断之后,医生通常会撰写相应的诊断报告,如放射学报告。利用医学LLM和MLLM,医生只需提供诊断报告模板和患者诊断信息,模型即可自动生成相应的诊断报告[201, 223, 231]。在患者治疗过程中,医生会通过门诊信件向患者解释病因和治疗过程,以及各种更详细的临床信息。借助LLM的帮助,临床医生可以消除这一繁琐的过程,LLM生成的门诊信件在连贯性、准确性和人性化方面与人工生成的门诊信件相似[5]。患者康复后,临床医生会花费大量时间撰写患者的出院摘要,这可能导致延迟出院。通过利用LLM,临床医生只需提供模板和一些必要要求,即可在几秒钟内获得完整的出院摘要,这些LLM生成的摘要质量甚至在某些程度上超过了初级医生生成的摘要质量[37]。

通过利用强大的LLMs和MLLMs,从患者入院到出院的各种临床报告可以自动生成,而且它们比人类生成的报告更全面、更准确[37, 202],这显著减轻了医生的工作负担,使他们能够将更多时间投入到患者护理中[152]。然而,我们期望这些强大的LLMs和MLLMs仅作为生成临床报告的辅助工具。它们可以起草、修改和总结报告,但最终的报告仍需要由临床医生进行审查、编辑和批准,并对报告负责[143, 188]。

6.3 医学教育

GPT-4和Med-PaLM 2在美国医学执照考试(USMLE)中得分超过86%[145],而GPT-4V[238]达到了90.7%,在医学图像相关问题上超过了大多数医学生[239]。这表明一些LLMs和MLLMs能够为医学生提供知识服务,这为提高医学教育提供了重要机会[90, 96]。

例如,Khanmigo[91]和Duolingo[184]正在考虑利用GPT-4等工具来优化在线教学,不仅解答医学生的问题,还提供解释和新的见解。除了简单回答问题外,医学LLMs和MLLMs还可以为医学生创造更复杂的练习场景,例如生成多样的考试内容、模拟临床场景和创建数字病人[42, 90],从而提高学生的专业能力和实践技能。此外,基于学生在模拟练习中的表现,医学LLMs和MLLMs可以为学生们量身定制个性化学习计划,这在现实中通常需要花费大量时间,但LLMs和MLLMs可以更经济、更高效地实现这一点[90]。总的来说,利用强大的LLMs和MLLMs可以为医学生提供丰富的医学内容,创造高度真实和多样化的医学场景,拓宽学生在医学领域的视野,从而为学生进入临床实践打下坚实的基础。

强大的LLMs和MLLMs在医学教育中的潜力超过了某些常规医学培训课程,因为这些课程中的教师往往不能随时与学生互动,或者提供个性化学习计划。尽管这些模型在医学教育中具有巨大潜力,但它们只能作为教学的辅助工具,不能取代医学教育者,因为LLMs和MLLMs内在的偏见和幻觉使得学生难以评估模型生成的内容的准确性[2, 61]。如果模型持续向医学生提供错误的难以长期检测的内容,它们可能会轻易误导学生。因此,LLMs和MLLMs只能在医学教育中发挥支持作用,学生需要在教师的指导和监督下使用这些工具。

6.4 心理健康服务

随着社会压力的增加,全球对心理健康服务的需求日益增长[156],而在某些地区,由于发展有限和资源不足,心理健康专家严重短缺[189, 199]。在心理健康服务中,主要关注的是以对话驱动的心理咨询,因此基于LLM的聊天机器人[30, 126]可能成为未来提供心理健康服务的一种方式。

由于精神疾病患者的特殊性,他们往往更容易受到伤害,心理敏感性较高,因此这些心理健康服务聊天机器人通常也需要在对话中表现出同情心、信任、理解和舒适,而不仅仅是提供建议[30]。与专业的心理健康专家相比,这些作为心理健康聊天机器人的LLM提供更好的可访问性,可以为偏远地区或心理健康专业人员短缺的地区提供心理健康服务。此外,这些基于LLM的聊天机器人的一个特点是可以根据患者的病史和互动记录提供更多个性化的互动方式,例如特定的情绪模式、风格或语调[42]。此外,心理咨询和治疗的高成本可能会阻止许多人寻求心理健康服务,但基于LLM的心理健康聊天机器人可以显著降低患者获得心理健康服务的成本[175, 267],从而降低获得服务的门槛。此外,研究表明,人们在与聊天机器人互动时更愿意透露他们的负面情绪,因为一些话题可能与人类讨论尴尬,但可能更愿意与机器人分享[23]。因此,从便利性、成本和可接受性来看,基于LLM的心理健康聊天机器人超越了心理健康专业人士,这可能会激励更多有精神疾病的人寻求心理健康服务[42]。

心理健康服务以信任、相互尊重和情感联系为特征,尽管研究正在提高LLM的同理心[30],但它们与人类相比仍缺乏同理心。此外,尽管通过SFT和RLHF等方法努力使LLM与人类概念和伦理规范保持一致,它们仍可能生成具有攻击性或心理伤害的内容[45],这对心理脆弱的精神健康患者来说是不可接受的。在将LLM作为心理健康聊天机器人整合到实际应用之前,需要更多的工作来解决这些问题,并需要对这类产品实施更大的控制措施。

6.5 医学语言翻译

语言障碍是文化交流的主要障碍之一,在医学领域也是如此,但有了LLM的帮助,这个障碍将被克服,因为LLM通常在大规模语料库上进行训练,包含多种语言,因此可以掌握多种语言并具有强大的翻译能力[79]。除了跨语言翻译,LLM还可以将包含医学术语的文本翻译成易懂的普通文本[136, 267]。

近年来,机器翻译一直是解决医学领域语言障碍的重要工具,它已被证明比传统服务高出7%的准确性[90],而像ChatGPT和GPT-4这样的强大LLM已经将机器翻译提升到一个新的水平[172]。有了这样的LLM的支持,来自不同地区的医学专业人士可以在更包容的环境中进行医学交流,从而促进全球医学的发展[90]。此外,医学LLM拥有丰富的医学知识,使它们能够将包含大量医学术语的报告翻译成普通文本,以帮助患者更好地了解自己的病情并促进他们的依从性[136]。将包含医学术语的医学文本翻译成普通语言,例如将传统中医文本翻译成普通语言,有助于在社会社区中传播宝贵的医学知识,从而有助于其保护和普及。

将LLM作为医学语言翻译工具的使用是一个有前景的应用,但它们仍然存在一些局限性。例如,翻译报告可能会遗漏关键点,导致不完整。另一个问题是模型的响应不确定性,即使使用相同的提示,LLM也可能提供不一致的翻译,并以不同的格式呈现信息[136]。因此,在部署LLM作为医学语言翻译工具之前,需要实施一些工作,例如进一步微调以提高模型翻译的完整性并减少不确定性。

6.6 手术辅助

在过去几十年里,医学机器人得到了迅速发展,尤其是在增强外科医生的能力并扩大微创手术潜力方面发挥了重要作用[11]。近年来,随着MLLMs的发展,医学机器人进入了一个新的阶段,不仅可以赋予医学机器人视觉能力,而且相比传统医学机器人,提供更好的互动性和更友好的交互环境。

目前,已经开始探索将MLLMs应用于手术程序[167],并将MLLMs整合到手术机器人中,可以使其在手术期间执行关键的辅助任务,例如协助进行内窥镜检查[143],其中MLLMs强大的视觉能力和专业知识可以基于内窥镜图像提供有价值的诊断结论和可行的手术解决方案。此外,当外科医生进行手术程序时,MLLMs可以结合视频流进行手术过程的注释,分析并总结手术过程中的步骤,以及记录不符合规定的操作,以便外科医生进行术后回顾和检查。

尽管医学MLLMs在手术辅助方面显示出有前景的潜力,并且可能在某些医疗场景中发挥作用,但它们目前还不适合用于紧急手术。这是因为MLLMs提供的错误信息可能会影响外科医生的判断,导致不可逆转的后果。此外,当前的MLLMs研究主要关注视觉-文本模态,我们预计未来的工作将探索其他模态,例如音频和时间序列,以使手术机器人能够执行更全面和准确的辅助任务,并提供更灵活的交互方式。

在本节中,我们结合LLMs和MLLMs的特点,讨论它们在医学和医疗保健领域的潜在应用。无论LLMs和MLLMs在医学中应用于哪个任务,我们想强调的是,这些模型只能作为医学从业者的助手来完成一些辅助任务,而不是最终的决策者。LLMs和MLLMs生成的内容在应用于临床环境之前需要由医学从业者仔细审查和修改,医学从业者需要对最终内容负责。

7 LLMS和MLLMS在医学中的挑战和未来方向

尽管LLMs和MLLMs在AI社区引起了波澜,并在医学领域取得了初步成就,但医学的独特特性为LLMs和MLLMs的发展和部署带来了许多挑战和风险。在本节中,我们将详细讨论和分析LLMs和MLLMs在医学领域面临的当前挑战,并提供一些可能的解决方案。

7.1 幻觉

幻觉指的是LLMs和MLLMs生成的看似合理但未经证实或错误的信息[81, 165],这将导致诸如生成包含误导信息的放射学报告以及在医学教育中传播错误医学知识等问题[103]。由于幻觉导致的虚假响应难以区分,因为模型经常以令人信服的方式出现,并且响应似乎合理[103]。因此,幻觉对LLMs和MLLMs在医学中的实际应用构成了关键挑战。LLMs和MLLMs的幻觉问题可能源于多种因素,例如用户的不明确指令、训练数据中缺乏相关知识等,而像ChatGPT这样的自回归模型根据前面的内容预测后续标记,这可能导致幻觉现象的累积传播[258]。考虑到医学领域的特殊性,由幻觉引起的误诊可能导致严重的医疗事故,解决LLMs和MLLMs的幻觉问题是加速医学LLMs和MLLMs应用落地的重要步骤。

为了解决这一挑战,一些努力提出了一个新的基准数据集,用于测试医学LLMs和MLLMs的幻觉现象[198]。然而,这样的基准数据集只能用于检测模型中的幻觉现象,并不能直接减轻幻觉问题。其他研究指出,LLMs的知识主要是在预训练阶段获得的[265],训练数据中的噪声数据,如错误消息,可能会鼓励幻觉,因此最根本的减少幻觉的方法是从预训练语料库中手动或自动清理不可靠的数据[81]。然而,LLMs和MLLMs的预训练语料库通常包含大量数据,包括直接从网络爬取的数据,这些数据很难清理,需要设计有效的选择和过滤策略。因此,在SFT和RLHF等微调阶段使用高质量医学数据集来减少LLMs和MLLMs的幻觉可能是一个更明智的选择。微调阶段所需的数据量远小于预训练阶段,使得手动设计和清理这些数据集更具可行性,通过在这些高质量数据集上进行微调,LLMs和MLLMs可以展现出更高的真实性和事实准确性[19, 24]。为了进一步降低减轻幻觉的成本,现有努力试图在推理阶段解决幻觉问题。例如,促使LLMs或MLLMs验证自己的响应已被证明在减轻幻觉方面是有效的[103, 104],其中Chain-of-Verification (CoVe) [47]是一种有效的验证方法,模型首先起草一个初步响应,然后根据响应计划验证问题并回答这些问题以检查草案,最后生成一个优化的答案。实验表明,像CoVe这样的自我验证方法可以减少各种任务中的幻觉。此外,检索增强生成(RAG)也被证明是一种有效的减少幻觉的方法[169],它允许模型在响应生成阶段从外部网页或知识库检索相关知识作为参考[116, 177],从而显著解决幻觉问题。

7.2 视觉感知限制

尽管MLLMs具有视觉能力,但它们的视觉感知能力仍然有限,特别是在区分空间定位方面[269]。MLLMs有限的视觉感知能力可能由两个因素引起。一是视觉信息在模态对齐过程中丢失,例如,使用简单的线性层[107, 125]或MLP[256]将视觉特征直接映射到词嵌入空间会丢失信息。此外,像Q-former这样的方法,只使用32个可学习的向量来表示图像,也可能导致信息丢失。第二,MLLMs在相对简单的任务上进行训练,通常以VQA的形式,缺乏更具有挑战性的训练任务,如目标检测和图像分割。

为了解决上述因素,一个可能的解决方案是引入大型视觉模型,如SAM[92],它可以更有效地捕捉视觉信息,并在更具有挑战性的任务上表现出色,如图像分割。例如,LLaVA的后续工作LISA[98]将ViT-H SAM[92]作为其视觉主干,并引入额外的视觉解码器用于生成掩膜,这不仅继承了MLLMs的语言生成能力,而且增强了视觉感知能力,以输出复杂和隐含查询文本的分割掩膜。在此基础上,GLaMM[164]可以提供更密集的像素级对象定位,即它能够完成多目标分割,进一步增强了模型的视觉感知能力。此外,u-LLaVA[229]使用Vicuna和CLIP ViT-L/14分别作为LLM主干和视觉编码器,并也整合了ViT-H SAM、Grounding DINO[130]和Stable Diffusion[166]作为分割、定位和修补模块,这统一了多模态任务,同时提高了模型的视觉感知能力。

所有上述模型都是基于MLLM,并添加了额外的视觉模块以提高视觉感知能力,完成多样的视觉任务,这完美地解决了当前MLLMs在视觉感知能力有限和区分空间定位困难的问题。然而,LISA、GLaMM和u-LLaVA都是通用模型,我们期待未来在医学领域出现具有多种能力的医学MLLMs,如分割、定位和修补。

7.3 训练和部署挑战

尽管大规模的数据集和模型参数赋予LLMs和MLLMs强大的能力,但它们同样增加了对计算资源的需求,导致高昂的计算成本,例如LLaMA-65B是在2048个A100 GPU上训练了21天。而医学LLMs和MLLMs的常见策略是微调通用基础模型,这仍然需要大量的计算资源。例如,MEDITRON-70B使用了128个A100 GPU,而较小的LLaVA-Med使用了8个A100 GPU,使得普通医院难以独立承担医学LLMs和MLLMs的训练和微调,通常需要依赖额外的计算支持。此外,即使完成了医学LLMs和MLLMs的训练和微调,部署和推理仍然因为模型规模较大而成本高昂[157],使得大多数医院在本地部署和应用医学LLMs和MLLMs在实际应用中极为困难。为了使计算资源有限的医院能够训练和部署医学LLMs和MLLMs,本节提出了四个解决方案:优化训练过程、减少模型参数、修改模型架构和优化硬件设备。

PEFT系列方法[72-74, 105, 115, 131, 260]如第4.2.2节所述,通过保持大部分预训练参数冻结并仅更新少量参数,解决了医学LLMs和MLLMs的高训练成本和高开销问题。然而,PEFT方法只能实现高效的训练,并不能解决部署难题,为了解决这个问题,轻量化是一个可行的解决方案[26, 35, 36, 244]。例如,MobileVLM[35]是一个定制的MLLM,适用于移动场景,通过减少LLaMA的大小和设计高效的投影器,降低了训练和推理预算,并能够运行在移动设备上,同时在大多数任务上保持与其他MLLM的竞争力。此外,从通用基础模型微调的医学LLMs和MLLMs通常保留了一些医学不相关的知识,这些知识存储在模型的不同参数中。知识蒸馏可以将医学LLMs和MLLMs的医学知识蒸馏到一个更紧凑的模型中[128],丢弃医学不相关的知识,从而减少模型参数数量,这对部署更为有利。

目前,所有LLMs和MLLMs都是基于Transformer架构构建的,这不可避免地导致随着序列长度的二次增加计算复杂度,对于长序列的计算效率较低。为了从根本上解决医学LLMs和MLLMs的训练和部署挑战,选择在计算和推理上更高效的模型架构是一个可行的选项[57, 154]。例如,RWKV[154]结合了Transformer的高效并行训练和RNN的有效推理,确保在推理期间计算和内存复杂度保持不变,同时保持与同等规模的Transformer模型相当的表现。此外,基于状态空间模型(SSM)的Mamba[57]在性能和推理速度上超越了Transformer模型,在推理速度上比Transformer快五倍,而在规模上相当。将这些在计算和推理上高效的模型架构扩展到通用或医学LLMs和MLLMs将有助于克服医学LLMs和MLLMs当前的部署难题。

除了在模型层面提高计算和推理效率外,社区还希望进一步推进专用硬件加速器的发展[142]。例如,NVIDIA的Hopper GPU[33],通过NVLink-C2C互连与NVIDIA Grace CPU[51]耦合,将CPU和GPU之间的通信速度提高了7倍以上,从而在硬件层面提高了模型的计算和推理效率。

7.4 缺乏新颖性

一旦医学LLMs和MLLMs被训练,它们所获得的知识就固定了。然而,由于医学知识不断更新,缺乏新的医学概念和知识将加剧模型的不准确性和幻觉问题,尤其是当遇到训练语料库中不存在的术语时,模型将无法理解这一知识[188]。因此,缺乏新颖性将严重阻碍医学LLMs和MLLMs在实际应用中的落地。

为了应对医学LLMs和MLLMs由于离线学习而缺乏新颖性的问题,通过微调方法持续更新参数以使其与人类知识保持同步是一个可行的解决方案[224]。尽管微调可以向模型注入新的医学概念和知识,但它也引入了在更新参数时两个挑战:一是灾难性遗忘,即模型在获得新知识后忘记之前学到的知识[54, 248]。第二个是负向迁移,即在学习新任务时,模型在未见任务上的性能恶化[262]。为了解决上述问题,研究人员引入了模型编辑[241],例如引入额外的可训练参数来纠正过时知识导致的错误响应,同时保持模型原始参数不变[62, 76],或者定位模型中与某些知识相关的参数,并相应地更新它们以整合和编辑相关的新知识[114, 138, 139]。除了模型编辑之外,RAG也可以作为更新医学LLMs和MLLMs知识的一种手段,通过连接信息检索组件,使模型能够检索外部知识库的相关内容作为参考[116, 177],从而生成更可靠的响应。

7.5 隐私和安全

医学LLMs和MLLMs是在大规模医学语料库上训练的,其中一些数据,如EHRs、医患对话等,可能涉及患者隐私,如姓名、电话号码和电子邮件地址,这些信息可以通过直接提示从LLMs或MLLMs中检索出来,从而引发严重的隐私和安全问题。尽管开发者在建模安全方面做出了额外的努力,例如专门的安全微调(SFT)和强化学习从人类反馈(RLHF),然而,仍然可以通过多步越狱提示等战术从训练数据中获取个人隐私数据。

为了促进医学LLMs和MLLMs的实际应用,保护患者的个人隐私至关重要。目前,为了增强对患者个人隐私的保护,常见做法是删除数据集中的个人信息[116, 126]或向数据中添加受控噪声或随机性,以在保证数据分析的同时保护隐私。此外,使用ChatGPT或GPT-4生成的优质合成数据进行训练[181]确保了训练数据集的可控性和多样性,同时降低了隐私泄露的风险。此外,我们预计将进一步完善相关法律法规,加强对训练数据集获取和使用的监管,并禁止用户以任何方式从模型中访问患者隐私数据。

7.6 偏见和毒性

大规模语料库,尤其是从互联网获取的数据,不可避免地包含各种偏见观点,LLMs和MLLMs可能从这些语料库中学习任何偏见[53, 157],例如种族偏见[236]、性别偏见[95]、政治偏见[129]。同时,语言模型可能会产生有毒的响应,例如攻击性和伤害性的观点,特定群体更容易受到针对,因为存在偏见[45]。这些偏见和毒性延伸到LLMs和MLLMs,对患者可能产生潜在的影响和威胁,对精神病患者可能产生严重后果。减少训练数据中的偏见本质上是一种解决模型中偏见存在的方法。具体来说,仔细筛选更多样、平衡和代表性的训练数据,确保模型从更广泛的视角和经验中学习,从而在各方面减少偏见,形成更全面的理解。对于模型毒性,利用富有同情心的数据已被证明可以减少模型产生的有毒内容[97]。然而,重新筛选预训练数据集并重新训练模型以减少偏见和毒性是昂贵的,因此,筛选一些具有反偏见和反毒性特征的高质量数据集,以在SFT和RLHF阶段减少医学LLMs和MLLMs的偏见和毒性,是一个更经济的做法。除了训练之外,还需要进一步增强对模型偏见和毒性的评估。设计一个全面的模型偏见和毒性基准有助于检测这些问题,使开发者能够定期审查模型[38, 53]。

8 结论

近年来,LLMs的发展在NLP领域取得了突破,研究人员将LLMs扩展到多模态领域,形成了MLLMs,从而迈出了通向AGI的重要一步。同时,LLMs和MLLMs的快速发展及其强大的性能促进了大量医学LLMs和MLLMs的诞生。为了帮助研究人员和医学从业者了解医学LLMs和MLLMs当前的技术细节和发展状态,本调查聚焦于LLMs和MLLMs的范式转变,详细阐述了整个发展背景,强调了从最初的特征工程到结构工程、目标工程,以及现在的提示工程和数据工程的发展。为了提供医学LLMs和MLLMs的全面基础知识,本调查总结了当前LLMs和MLLMs的主流架构,并汇编了现有的医学LLMs和MLLMs的列表。此外,本调查提供了一个全面的指南,包括现有的医学数据集、模型构建方法、评估方法和使用技巧,以帮助相关研究人员和医学从业者开发、部署和使用他们自己的医学LLMs和MLLMs。此外,本调查探讨了医学LLMs和MLLMs在医学诊断、临床报告生成、医学教育、心理健康服务、医学语言翻译和手术辅助等领域的应用前景,并分析了医学LLMs和MLLMs在各种临床应用中的巨大潜力。尽管医学LLMs和MLLMs在医学领域取得了显著成就,但仍存在一些重大挑战和局限性,阻碍了它们在临床环境中的实际部署。因此,本调查讨论了当前医学LLMs和MLLMs面临的挑战,如幻觉、视觉感知限制、训练和部署挑战、缺乏新颖性、隐私和安全、偏见和毒性,并提供了解决这些问题的潜在方案,从而促进了后续医学LLMs和MLLMs的实际应用。

总的来说,本调查对医学LLMs和MLLMs进行了全面分析,从背景、原理到应用,旨在加速临床医学相关产品中LLMs和MLLMs的发展,并进一步促进人工智能与医学领域的融合。我们期待未来会有更多基于LLMs和MLLMs的智能AI产品,如医疗代理和具身智能,进一步推动医学领域AI的创新。最后,我们强调,医学LLMs和MLLMs的出现旨在提高医疗服务质量、医生效率、减轻工作负担,而不是取代医疗保健专业人士。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询