我要投稿

利用生成式人工智能和大语言模型：医疗融合的全面路线图

发布日期：2024-06-29 05:36:39 浏览次数： 3101 作者：知识图谱科技

Abstract 摘要

生成人工智能（AI）和大型语言模型（LLMs），如ChatGPT，秉持着革新医疗保健和医学领域数据管理和信息管理的承诺。然而，现有文献未能为非人工智能专业人士提供集成它们的充足指导。本研究通过进行范围性文献回顾来解决将生成AI和LLMs整合到医疗保健和医学实践中的迫切需求。它揭示了支撑这些技术的独特机制，如从人类反馈中进行强化学习（RLFH），包括少样本学习和链式思维推理，这使它们与传统基于规则的AI系统有所区别。需要一种包容、协作的共同设计过程，吸引所有相关利益相关者，包括临床医生和消费者，以实现这些益处。虽然全球研究正在探讨机会和挑战，包括伦理和法律方面，但LLMs通过增强数据管理、信息检索和决策过程，为医疗保健领域提供了有希望的进展。要实现这些技术的全部潜力，需要在数据获取、模型微调、快速策略开发、评估和系统实施中持续创新。组织应主动利用这些技术，以提高医疗保健质量、安全性和效率，并遵守负责任应用的伦理和法律指导。

关键词：生成AI，生成人工智能，大型语言模型，LLM，伦理，医疗保健，医学

1. Introduction 介绍

自2022年11月由美国公司OpenAI发布以来，名为ChatGPT的聊天机器人以其在与人类对话中的出色表现震惊了世界 [1]。比尔·盖茨赞扬说，新一代对话代理者将“改变人们的工作方式、学习方式、旅行方式、获得医疗保健的方式以及彼此交流的方式”，从而导致重大的生产率提升和世界上一些最严重的不平等问题得到缓解，特别是在医疗保健方面 [1]。白宫媒体公告赞扬“如果得到妥善管理，人工智能可以为所有人的繁荣、平等和安全做出巨大贡献，从癌症预防到气候变化缓解等各个领域” [2]。

ChatGPT是生成人工智能（AI）技术的典型例子。生成式AI是指学习根据前一个词生成下一个词或词序列的AI技术子集。它们可以生成文本、图像、音乐、语音、视频或代码等新内容。它们取得了巨大成功，吸引了空前的采用、激动和争议。生成AI模型利用先进的深度学习和迁移学习算法，以及机器学习技术，从现有数据中学习模式和关系，并生成风格、语气或结构类似的新内容。深度学习是机器学习的一部分，它使用具有多层处理节点的神经网络来分析数据的各种因素，以进行复杂的模式识别和预测。迁移学习是一种机器学习技术，它将预训练模型调整到新但相关的任务，利用对初始任务的知识来提高新任务的性能。

生成AI模型是大型语言模型（LLM）的一个子集，例如生成式预训练transformers（GPTs）。例如，GPT-3经过1750亿参数的训练，而GPT-4经过1万亿参数的训练。一个中间版本GPT-3.5专门训练以预测序列中的下一个词，使用了一个庞大的互联网文本数据集。正是这个模型构成了当前版本的ChatGPT [3]。在预先训练大量数据以学习复杂模式和关系之后，这些LLMs已经发展出了模仿人类语言处理的能力 [4]。在接收到提示中的查询或请求后，ChatGPT可以生成相关且有意义的回答，并借助其学习的语言模式和表示来回答问题 [5]。这些LLMs通常被称为生成AI的“基础模型”，因为它们是更先进和复杂模型开发的起点。

与传统的基于规则或依赖预定义数据集的AI系统不同，生成式AI模型具有独特的能力，可以创造原创且没有明确编程的新内容。这可能会导致风格、语调或结构类似于提示指令的输出。因此，如果经过深思熟虑设计并负责任地开发，生成式AI有潜力在各种信息管理领域增强人类能力。这些可能包括支持决策制定、知识检索、问题回答、语言翻译以及自动报告或计算机代码生成[4]。

生成式AI和LLM革新的一个重要领域是医疗保健和药学，这是一个语言对于临床医生和患者之间有效互动至关重要的人类领域[6]。这也是一个信息丰富的领域，每一种评估、诊断、治疗、护理计划和结果评估都必须以特定术语或自然语言的形式记录在电子健康记录（EHR）中。一旦LLM暴露于特定医疗保健领域的相关EHR数据集中，模型将学习术语之间的关系，并扩展其模型以代表这一领域的知识。随着生成式AI技术的进一步发展，包括视频和音频技术，医疗保健提供者通过审核而不只是简单地将数据输入到EHR的梦想离我们并不遥远。临床医生可以口头要求计算机开具处方或进行化验，并要求集成了EHR系统的生成式AI模型自动检索数据，生成换班交接报告和出院摘要，并支持诊断和处方决策。因此，生成式AI可以成为“医疗领域的强大工具”[7]。

生成式人工智能（Generative AI）和LLM（Large Language Models）也引发了关于它们在医疗保健和医学领域潜在益处、未来前景以及关键局限性的激烈辩论和讨论。在Sallam对60篇所选研究ChatGPT在医疗保健教育、研究和实践中效用的论文进行的重要系统性回顾中，85%的论文（51/60）引用了益处/应用，而压倒性的97%的论文（58/60）提出了与ChatGPT使用相关的担忧或可能风险[8]。这些发现表明，通过妥善处理伦理关切、透明度和法律事项，这些技术不仅可以加速研究和创新，还可以促进医疗保健的公平性。

为了更好地利用生成式人工智能和LLM的进展，我们进行了对最近文献的全面范围性审查。目标是勾画出一项有效整合和利用生成式人工智能在医疗保健和医学领域的战略路线图。我们用于查找文献的指导性问题是：生成式人工智能和Large Language Models（LLMs）是什么？在将生成式人工智能和LLMs应用于医疗保健和医学中常用哪些技术？它们在医疗保健和医学中的当前应用情况是什么？它们的益处和意外负面后果是什么？对于这些技术，伦理和监管考虑是什么？未来的研究和发展趋势是什么，以最大化整合生成式人工智能和LLMs在医疗保健和医学中的益处并减轻风险？

2. Methods 方法

在构架文献回顾中，一个对生成型人工智能和LLM领域充满兴趣，但缺乏足够机器学习背景的健康或医学学者可能会提出的问题得到了回答。为了确定相关文献，我们的主要搜索分为两个步骤，使用布尔逻辑和表1中列出的关键词。

第1步旨在把握生成式人工智能和LLM的范围，从Google学术开始，因为与我们的调研相关的重要文章，例如Open AI的GPT模型和Google的PaLM模型的发展，是在arXiv上发布的，这是一个提供学术预印本的免费存储库。一个查询通常会导致随后的查询，由参考文献指导；因此，我们进一步评估了这些参考文献。一旦了解了生成式人工智能和LLM，我们就进入了第2步，探索有关它们在PubMed中的医疗保健或医学应用的文献。搜索时间为2023年3月1日至7月15日。

扫描文章标题和摘要以评估其与我们研究问题的相关性。注意关注GPT的局限性和性能（参见表2），我们在第3步中扩展了关键词，讨论了生成式人工智能的伦理和监管考虑。借鉴官方网站，我们总结了美国和英国政府有关生成式人工智能的监管观点。利用表1中的关键词的迭代方法，在88篇分析过的文章标题和摘要中形成了与我们调查相关的两个不同的概念群（见图1）。

图 1

从 VOSviewer 术语图中提取的 88 篇学术期刊论文标题和摘要中包含的 13 个关键概念的两个概念聚类可视化。VOSviewer 的有效性已由参考文献 [9] 验证。

在经过深入研究问题和洞察力的启发后，我们策划了文章的大纲，勾勒出基本研究问题、概念及其因果关联。证据评估、问题调整和概念映射的迭代实践持续进行，直到我们对内容满意为止。随后，我们进一步完善并最终定稿手稿。

3. Results 结果

在这项范围审查中包括了63篇论文，其中有55篇学术论文提供了RIS文件格式。对这55篇文章进行的概念分析显示了两个概念群：其中一个以ChatGPT、模型、患者、患者信息和研究为中心。另一个则强调响应、医生和问题（见图2）。

图2

从含有 VOSviewer 术语图的 55 篇审阅学术期刊论文标题和摘要中提取的 10 个关键概念，呈现了两个概念集群的可视化。

我们从七个方面呈现我们的研究结果：生成式 AI 应用的技术方法，LLM 训练方法，模型评估，当前健康医学领域中生成式 AI 和 LLM 的应用，益处，伦理和监管考虑，以及未来研究和发展方向。

3.1. 生成式人工智能和LLM应用的技术方法

生成式人工智能（Generative AI）和LLMs（Large Language Models）由一套深度学习技术驱动。举例来说，ChatGPT是一系列利用变压器架构的深度学习模型，借助自注意力机制来处理大规模人类生成的文本数据集（GPT-4响应，2023年8月23日）。这些人工智能技术协同工作以驱动ChatGPT，使其能够处理各种任务，包括自然语言理解、语言生成、文本完成、翻译、摘要等多种功能。在选择LLMs解决实际问题时，有三个关键因素：模型、数据和下游任务，这也适用于解决医疗保健问题。

基于模型训练策略、架构和用例，LLMs分为两种类型：（1）编码器-解码器或仅编码器语言模型，以及（2）仅解码器模型。编码器模型主要由BERT家族模型代表，在ChatGPT推出后开始逐渐淡出。编码器-解码器模型，例如，Meta的BART，仍然前景广阔，因为大多数都是开源的，为全球软件社区提供不断探索和发展的机会。解码器模型，如GPT家族模型、Google推出的Pathways Language Model（PaLM）和Meta的LLaMA模型，已经并将继续主导LLM领域，因为它们是生成式人工智能技术的基础模型。另一方面，基于训练数据集，LLMs可分为基础（或基本）LLMs和指令微调LLMs。基础LLMs，如ChatGPT，经过训练可预测基于文本训练数据的下一个最可能跟随的单词；因此，输出的方向可能难以预测。指令微调LLM是基础LLM要进行微调，使用各种技术，包括来自人类反馈的强化学习。由于指令微调LLMs更好地调整以理解特定应用场景中的上下文、输入和输出，它们已经改善了与目的对齐的能力，克服了基础模型中的限制，更加安全、不偏颇和有害。因此，指令微调LLMs是建议在医疗保健领域中特定人工智能应用中使用的LLMs。Singhal等人的研究结果支持这一观点，即指令微调的Flan-PaLM模型在多项选择医学问题回答上超越了其基础PaLM模型。

数据对模型有效性的影响始于预训练数据，并持续到训练、测试和推断数据。预训练数据的质量、数量和多样性显著影响LLMs的性能。因此，基于来自特定医疗保健领域的数据进行基础模型的预训练，以生成指令微调模型，是这些领域下游机器学习任务的推荐开发方法。当然，有了丰富的注释数据，无论是基础LLM还是指令微调模型都可以在特定任务上取得令人满意的表现，并满足医疗保健数据的重要隐私约束。

LLMs可应用于四种类型的任务：自然语言理解（NLU）、自然语言生成、知识密集型任务和推理。传统的自然语言理解任务包括文本分类、概念提取或命名实体识别（NER）、关系提取、依赖性解析和蕴涵预测。其中许多任务是大型人工智能系统的中间步骤，例如用于知识图构建的NER。使用解码器LLMs可以直接完成推理任务，并消除这些中间任务。自然语言生成包括两种主要类型的任务：（1）将输入文本转换为新的符号序列，例如文本摘要和机器翻译，以及（2）“开放式”生成，旨在对输入提示生成新的文本或符号，例如回答问题、撰写电子邮件、撰写新闻文章和编写计算机代码。这种能力对医疗保健领域的许多任务都很有用。

知识密集型的NLP任务是指需要大量背景知识的任务，无论是特定领域的专业知识、一般的现实世界知识，还是随着时间积累的专业知识[1]。这些任务不仅需要模式识别或语法分析，还高度依赖于对特定实体、事件和现实世界常识的知识的记忆和正确利用。医疗保健和医学任务属于这一类。经过对十亿标记的暴露，LLM在知识密集型任务方面表现出色。然而，在LLM没有学到上下文知识或面临需要这些知识的任务的情况下，LLM会感到困难，可能会“幻觉”[11]。这个问题可以通过进一步使LLM接触特定的医疗保健和医学知识库以进行检索增强，以开发细化的指令模型来解决[15]。

推理任务：在两项重要研究中，Singhal等人通过将LLM的表现与各种认知任务中的临床医生和普通人进行比较，对LLM的能力进行了严格审查[6,16]。受调查的LLM，Med-PaLM 2，在72.9%的时间里与医生答案相比展现出更好的科学共识[16]。Med-PaLM 2在理解（98.3%）、知识回忆（97.1%）和推理（97.4%）任务中表现出一致的高水平。根据医疗保健研究与质量局（AHRC）通用格式[17]所测得的潜在危害相关指标表明，Med-PaLM2的表现明显优于临床医生（答案的6.7%与44.5%）[16]。Med-PaLM在医学人口统计方面表现出减少的偏见，仅在0.8%的情况中显示出这种偏见，而临床医生在1.4%的情况中显示出偏见[6]。与普通人相比，Med-PaLM在直接回答用户意图的答案上几乎不逊色，分别获得94.4%和95.9%的得分。值得注意的是，Med-PaLM 2生成的答案在与临床实用性相关的九个评估轴中有八个优于医生生成的答案[16]。因此，这些实验证明生成式AI和LLM在推理任务方面可以模拟人类专业知识。

这项研究还揭示了Med-PaLM在某些方面表现不如临床医生[6]，例如，Med-PaLM在生成有用回复方面落后于普通人，成功率为80.3%，而普通人为91.1%。

3.2. 用于训练LLM的方法

3.2.1. 微调大型语言模型大型语言模型可以通过各种策略进行微调，例如修改参数数量[18]，训练数据集的大小，或用于训练的计算量[1]。微调大型语言模型将扩展预训练的大型语言模型，并显著提高它们在超越幂律规则的推理方面的表现，以释放前所未有的奇妙的新能力[6,19]。新能力指的是在较小模型中不存在但随着模型规模的扩大变得显著的特定能力。这些能力包括但不限于微妙的概念理解，复杂的词语操纵，高级逻辑推理和复杂的编码任务 [6]。例如，当 PaLM 模型的参数规模从 80 亿扩展到 540 亿时，它展现出了基本翻了一番性能的新能力。规模化的 Med-PaLM 模型在回答来自美国医学执业许可考试 (USMLE) 数据集的问题时达到了 67.2% 的准确率。

此外，大型语言模型的扩展已经导致了在算术推理和语言常识推理方面几乎接近人类表现的进步 [1]，这两种能力对于医疗保健和医学都是重要的。这些增强的功能使得大型语言模型可以作为医学教育的创新工具，并帮助医学生获得新颖的临床见解 [20]。此外，大型语言模型在涉及回忆、阅读理解和逻辑推理的任务中的增强能力为基本医疗流程的自动化提供了机会 [6]。这些可能包括临床评估、护理计划以及出院总结的起草。

此外，从人类反馈中进行强化学习 (RLHF) 是一种简单的数据和参数高效技术，可以显著提高泛化能力，并将大型语言模型与安全关键的医疗保健和医学领域保持一致 [21]。

3.2.2. 从人类反馈中进行强化学习 (RLHF) RLHF 指的是将三个相互连接的模型训练过程结合在一起的方法：反馈收集、奖励建模和策略优化 [22]。RLHF 已经作为指令提示实现，以训练大型语言模型在许多自然语言处理任务中取得卓越的表现 [6,16,18]。它不仅提高了模型的准确性、真实性、一致性和安全性，并在医学问答任务中减轻了伤害和偏见 [6]，还弥合了大型语言模型生成的答案与人类回应之间的差距。因此，RLHF 将大型语言模型显著地靠近实际应用于现实世界临床环境的地步。

3.2.3. 指令工程指令工程是为了生成式人工智能生成文本或图像而对提示进行细化，通常是通过迭代改进过程实现的。到目前为止，已经报告了五种指令提示：零次学习，少次学习，思维链，自洽性和集成改进学习。

零样本学习通过单提示指令使LLMs为特定的NLP任务进行训练，消除了对带注释数据的需求[23]；例如，人们将指令输入“提示”以从ChatGPT获取答案。这种方法避免了在微调神经网络中经常遇到的灾难性遗忘问题，因为它不需要模型参数更新[24]。最近的研究，如钟等人的研究，证实了LLM零样本学习在各种传统自然语言理解任务中的有效性[25]。

少样本学习通过提供有限的示例输入（通常作为“提示”称为的输入-输出对）来训练LLMs执行特定的NLP任务[16,26]。与零样本学习相比，这种学习技术有助于更快地实现情境内学习，从而产生更广义、特定任务的性能[6]。Umapathi等人发现，在少样本学习实验中，致幻控制的性能改进水平在三个示例后达到了一个平稳期[18]。他们还发现提示的框架至关重要；简洁和明确的提示比含糊或啰嗦的提示产生更高的任务执行准确性。

思维链提示模仿人类解决问题时的多步推理过程。它通过在提示中增加一系列简明表达的中间推理步骤来增强提示中的少样本示例，这些步骤最终通向最终答案[6,16,27]。这种方法可以有效地发挥LLMs的推理能力[27]，并且在数学问题解决任务的表现上显示出实质性的改进[28]。然而，Singhal等人在应用于医学问答任务时并没有发现思维链提示的表现在少样本提示策略上有显著改进[6]。

自一致性提示对不只是采用贪婪路径，而是对推理路径进行抽样。它的逻辑是，一个复杂的问题通常有多个推理路径可以达到正确的解决方案。然后，通过无监督学习从抽样的推理路径中选择最一致的答案。

Singhal等人提出了整体细化学习，以提高LLMs的推理能力[16]。它采取两步方法：步骤1：给出几个（少样本）思维链提示和问题，以随机产生多个解释和答案（可以调整温度以增加样本大小）；步骤2：基于原始提示、问题以及步骤1中聚合的答案来细化模型，产生一个细致的解释和更准确的答案。因此，整体细化提示是思维链提示和自我细化的组合[30]。

3.3. 模型评估

LLL在建模现实世界任务中应用面临三个挑战[1]：(1) 经常混乱的嘈杂/非结构化现实世界输入数据，例如包含拼写错误、口头语和混合语言；(2) 难以分类到预定义的NLP任务类别中的不明确实际任务；(3) 可能包含多重隐含意图的模糊指令。这些歧义会导致在没有后续追问的情况下预测建模困难。尽管在解决上述三个挑战方面表现优于经过精调的模型，但基础模型在处理现实输入数据方面的有效性尚未得到评估[1,6]；因此，Bommasani等人呼吁对LLL进行全面评估[31]。

Singhal等人为医生和普通用户评估LLL性能开发并试行了一个七轴评估框架，超越了多选数据集上的准确性[6]。这七个轴评估AI模型答案的(1) 与科学和临床共识的一致性；(2) 阅读理解、检索和推理能力；(3) 不正确或遗漏的内容；(4) 可能的危害程度和可能性；(5) 医疗人口统计的偏见；(6) 普通人对答案的有用性评估；(7) 解决问题意图。在后续研究中，Singhal等人增加了两项额外的人工评估：(8) 一个配对排名评估，比较模型和医生对医疗问题的答案在这九个临床相关轴上的一致性；(9) 一项医生评估，在两个新引入的旨在探究LLL极限的对抗测试数据集上对模型响应的评估[16]。

Kung等人应用了三个模型评估标准：准确性、一致性和洞察力（ACI），比较了ChatGPT答案与两名医生生成的答案[15]。他们发现ChatGPT的准确性在很大程度上受到一致性和洞察力的调节。高准确性输出的特征是具有高一致性和高见解密度。

Liu等人评估了他们的经过精调的LLL CLAIR-Long的性能，该模型基于LLL LLaMA-65B[32]。他们采用了四个标准，即同理心、响应能力、准确性和有用性，对CLAIR-Long、ChatGPT和四名初级医务人员对通过电子健康记录门户收到的患者查询的回应进行评估。他们发现，尽管在有用性方面结果中性，但CLAIR-Long和ChatGPT在响应能力、同理心和准确性方面表现良好。基于这一观察，他们得出结论，LLL在改善患者和初级保健提供者之间的交流方面具有显著潜力。

Chowdhury等人检查了ChatGPT生成的零次响应的安全性和适当性，以应对120名术后白内障患者提出的131个唯一问题[33]。评估工具是Singhal等人(2022)简化版的人工评估框架[6]，包括三轴上的七个问题：意图和有用性、临床危害以及临床适当性。两位眼科医生独立使用该工具评估ChatGPT对患者问题的回应。

3.4. 生成人工智能和LLM在医疗保健和医学领域的当前应用

LLM有潜力在医疗和医学领域创新信息管理、教育和沟通[7]。Li等人提出了一个分类体系，基于两个标准对ChatGPT在医疗和医学领域的实用性进行分类：(1) LLM解决的医疗任务的性质和(2) 目标最终用户[34]。根据第一个标准，概述了七种ChatGPT应用程序：分诊、翻译、医学研究、临床工作流程、医学教育、咨询以及多模式。相反，第二个标准勾画了七大最终用户类别：患者/亲属、医疗专业人员/临床中心、支付者、研究人员、学生/教师/考试机构以及律师/监管者。

LLM支持分诊医疗任务的一个案例[34]是帮助医疗专业人员根据患者的病历将患者住院情况概括为简明扼要的摘要，然后生成出院信[35]，从中受益于这些模型总结来自异构来源数据的强大能力[36]。利用LLM改进临床工作流程的一个有用应用是显著减少长期困扰医生和护士的文档负担，这是在纸质病历转换为电子健康病历之后仍然存在的问题[37]。LLM能够提高可解释性[1]，这是健康数据管理中的一个重要目标。因此，它们有潜力带来医疗安全性、质量和效率的显著改善。

Li等人还根据深度和复杂性将他们全面调查的58篇文章分成三个不同的层次进行了分层[34]。第1层论文包括41%的文章(或24篇)，为ChatGPT在医疗领域的广泛或专业应用提供了基础见解[34]。第2层论文占文章的28% (或16篇)，探讨了特定医疗领域内的示例用例，并对ChatGPT的响应准确性进行了简要讨论。第3层论文占剩余的31% (或18篇)，对ChatGPT对一整套专业或特定场景问题的响应进行了定性或定量评估。这种分类表明将生成式AI引入医疗领域目前处于创新扩散过程的初期阶段，具体来说是“知识和说服”阶段。

在第2层被归类的一篇论文探讨了ChatGPT作为乳腺肿瘤委员会决策支持工具的实用性[38]。在这项研究中，研究人员向ChatGPT-3.5提供了以色列一家医疗中心乳腺肿瘤委员会中介绍的连续十名患者的临床信息。然后，他们要求聊天机器人执行三项任务：摘要、建议和解释。有趣的是，在70%的情况下，聊天机器人的建议与肿瘤委员会的决定一致。然而，聊天机器人并未建议在多学科会诊中包括放射科医生。

三级论文主要集中在严格的实验上，以评估ChatGPT在特定医学专业或临床场景中的适用性[34]。这类评估通常采用李克特量表问题，从五分到六分再到十分不等[39]。截至2023年3月30日，大多数这些三级论文仍处于预印本审查阶段。值得注意的是，大多数评估的对象是“医学教育”，这不需要实验的伦理批准[34]。

各种研究结果对ChatGPT的效率显示出了不同的结果。虽然ChatGPT在事实核查问题上表现出了熟练度，但在复杂的程序性问题上表现不够一致[40,41]。Sorin等人认可ChatGPT在与癌症或视网膜疾病相关的患者查询方面是一个可靠的信息来源，但在治疗建议等方面存在不足[38]。Lahat等人能够利用ChatGPT确定胃肠病学相关的研究问题，但发现答案缺乏深度和新颖性[39]。Duong强调了ChatGPT在记忆和简单事实问题方面的能力，但指出在解决需要批判性思维的问题时存在局限性[42]。因此，Rao等人主张发展专门的人工智能工具，以帮助解决临床工作流程中的复杂问题[40,41]。

3.5. 生成式人工智能和大模型对医疗保健及医药的益处

在医疗保健和医学领域，生成式人工智能和LLMs的应用仍然主要停留在学术研究阶段[43]。以下案例概述了在这些领域探索生成式人工智能的初步努力。

3.5.1. 创建合成患者健康记录以改善下游临床文本挖掘截至目前，许多LLMs，例如ChatGPT，仅通过它们的API可用[14]。直接上传患者数据至LLM API进行数据挖掘引发了隐私问题。为了解决这一挑战，唐等人提出了一种新的训练范式，首先使用少量人工标记的示例进行零样本学习，通过在ChatGPT上进行提示生成大量高质量合成带标签数据[14]。利用这些合成数据，他们对生物命名实体识别和关系提取的下游任务进行了本地模型的微调，使用了三个公共数据集：BCBI疾病、BC5CDR疾病和BC5CDR化学物质。他们的训练范式提供了LLMs在临床文本挖掘中的有用应用，并具有隐私保护功能。它不仅显著减少了数据收集和标记的时间和工作量，还同时减轻了健康数据隐私问题的关注。

3.5.2. 利用LLMs支持的聊天机器人协助健康沟通艾尔斯等人评估了ChatGPT提供质量和富有同理心回答患者问题的能力[44]。他们进行了一项横断面研究，比较了ChatGPT和认证医师对发布在公开社交媒体论坛Reddit上的195个患者问题的回答。一组持牌医疗保健专业人员进行了评估，在585个评估中，他们更倾向于聊天机器人的回答，而不是医师的回答，比例达到78.6%。他们评价聊天机器人的回答质量和同理心明显更高。研究结果表明，具有医师进一步审查和批准的人工智能聊天机器人助手有潜力帮助起草对患者询问的回应。

相比之下，李等人采用了两种策略来超越基础LLM的已知局限性，特别是它们缺乏专业的医疗保健或医学知识，可能会削弱聊天机器人的临床实用性[43]。他们首先通过在斯坦福大学Alpaca项目的指令跟踪生成的52K合成数据训练了一个通用对话模型LLaMA-7B。随后，他们使用自己收集的来自在线医疗咨询网站的10万个医患对话数据集对这个模型进行了微调，最终推出了一个在线应用ChatDoctor[43]。他们在ChatDoctor中植入了一个“知识大脑”，将其与维基百科和/或离线医学领域数据库连接起来，以促进实时信息检索以回答医学问题。ChatDoctor在精度、召回率和F1分数等相似性度量指标（BERTScores）方面优于ChatGPT。这种增强显著提高了LLaMA-7B理解患者询问并提供准确建议的能力，超越了基础模型ChatGPT。

3.5.3. 潜力解决常规手术后常见患者问题 Chowdhury等人测试了LLM ChatGPT在白内障手术后安全解答患者问题的能力。他们向ChatGPT提出了120位患者提出的131个独特基于症状的问题，并由两名眼科医生评估了回答[33]。尽管有21%的问题对答案不明确，但59.9%的ChatGPT回答被评为“有帮助”，36.3%被评为“有些有帮助”。共有92.7%的回答被评为“低”伤害可能性，24.4%可能有“中度或轻度伤害”的可能性。只有9.5%的答案与临床或科学共识相悖。甚至在没有精细调整和最低限度提示工程的情况下，像ChatGPT这样的LLM具有帮助解决现实世界患者问题的潜力。因此，LLM有潜力在进一步控制模型安全性的情况下有助于解答常规手术后患者的问题。

3.5.4. 在医学图像分析中提高准确性提出了一种利用生成对抗网络（GAN）的三步方法，旨在提高医学图像的分辨率，这是准确医学诊断的重要组成部分[46]。所提出的架构使用了四种医学图像模式，并利用了来自四个公共数据集的四个测试样本进行评估。作者报告了模型输出和图像分辨率的优越准确性。通过获得高分辨率医学图像，这种方法有潜力帮助医疗专业人员更精确地解读数据，从而提高诊断准确性和患者护理水平。

3.5.5. 提供整个临床工作流程中持续临床决策支持的潜力Rao等人测试了LLM提供持续临床决策支持的能力[41]。他们向ChatGPT展示了一系列假想患者，根据其初始临床表现的年龄、性别和急诊严重程度指数（ESIs）进行了变化，并要求其基于初步临床表现推荐诊断。该测试遵循了Merck Sharpe＆Dohme（MSD）临床手册中发布的36个临床小品。结果令人瞩目：ChatGPT在所有36个临床小品中总体达到了71.7%的准确率。在其中，它表现出60.3%的准确率生成初步鉴别诊断，并在最终诊断中达到了最高的76.9%的准确率。这些发现为赞成将LLM整合到临床工作流程中提供了证据，突显了它们在支持临床决策制定方面的潜力。

3.5.6. 本文介绍了 Bumgardner 等人提出的一种创新方法，利用本地 LLMs 从复杂的非结构化临床数据（包括临床记录、病理报告和实验室结果）中提取结构化的疾病国际分类（ICD）代码，这些数据直接来自肯塔基大学临床工作流程 [47]。研究人员通过微调对解码器模型 LLaMA 进行了优化，还有两个编码器模型：BERT 和 LongFormer。然后利用这些模型提取结构化的 ICD 代码，以响应特定的生成指令。所使用的数据集包含 15 万条记录，其中包括描述组织标本属性的详细病理报告，以及根据显微组织检查、实验室结果和临床记录做出诊断总结的最终报告。复杂之处在于每个案例可能包含许多组织标本。

值得注意的是，研究发现，解码器模型 LLaMA 7b 的性能优于编码器模型 BERT 和 LongFormer，尽管后者是使用领域特定知识训练的 [47]。这项研究为将 LLMs 有效整合到现实世界的医疗任务执行中贡献了宝贵的方法论，并实现了这种整合在组织政策和已建立的技术框架范围内。

3.5.7. 医学教育语言是医疗保健和医学领域交流的关键方式 [16]。它支持人与护理提供者之间的互动。LLMs 的一个关键应用领域是医疗交流和医学教育，面向医疗保健和医学生、工作人员和消费者 [6,15,16,46]。Med-PaLM 2 模型在美国医学执照考试（USMLE）数据集上回答医学考试问题的准确率达到 86.5% [16]。同样，基于 GPT-3.5 的 ChatGPT 达到了约 60% 的准确率 [15]，而 GPT-4 在同一份 USMLE 考试中实现了 86.1% 的准确率 [46]。此外，医生更喜欢 Med-PaLM 2 的回答，而不是医生的回答，在临床效用方面有九项中八项更多地倾向于 Med-PaLM 2 [16]。

以上结果表明，生成式 AI 和 LLMs 能够产生可信赖且可解释的结果。它们可以作为人类学习者的示范指南，特别是在撰写具有高内部一致性、逻辑结构和清晰表达概念之间关系的论文时 [39]。它们也可以示范演绎推理过程 [16]。因此，LLMs 在协助医学和医学教育中的人类学习者方面似乎既可行又有前景。它们融入临床决策过程可能在未来成为一个可实现的目标。

3.6. 生成式人工智能和大模型的伦理及监管考虑

目前医疗和医学界对LLM的主流观点是要谨慎平衡监管和技术挑战，因为生成式人工智能技术仍处于早期实验阶段。例如，众所周知，ChatGPT模型是在互联网数据而非医疗数据上进行微调的。由于模型输出受训练数据集影响，专家们不建议在没有进一步在医疗或医学领域专业化的情况下直接使用ChatGPT【40】。众所周知，LLM会生成不真实、有毒、幻觉或对用户无益的输出【48】。相反，医疗和医学是安全关键的“高风险”领域，简单地无法承担负面后果【35】。因此，需要充分关注以下AI伦理方面的问题：患者隐私和数据安全问题、AI算法中的偏见，以及AI生成内容在医疗和医学领域的影响。

伦理问题 ChatGPT的大规模使用引发了一些社会和伦理问题，例如制造虚假、冒犯性或无关紧要的数据，可能对人类、政治、战争和知识库构成伤害甚至威胁【7】。训练数据模式和算法选择可能反映出现有的健康不平等【6】。目前，用于评估LLM在医疗领域应用的框架相对主观，受限于当前人类知识和专家观点，并未覆盖全部人群的完整范围。另一个潜在的偏见领域是人类评定者，即参与评估的临床医生和普通民众的数量和多样性有限【6,16】。Harrer总结了使用生成式人工智能技术存在六个伦理问题：问责制、公平性、数据隐私和选择、透明度、可解释性以及价值和目标一致性【7】。然而，取得这些问题的显著进展可能是一个挑战，因为解毒方法可能会带来副作用【48】。例如，这也可能导致LLM更容易受到分布转变的影响，从而降低对边缘群体使用语言的模型性能【49】。这可能源自该方法利用初始有毒训练数据中的虚假相关性。因此，有必要建立用于伦理释放和使用生成式人工智能应用的框架【8】，并标准化所需行动清单，以解决医疗和医学领域的伦理、技术和文化问题【7】。

确保患者隐私和数据安全 公众、医疗和技术界呼吁对人工智能技术的数据治理和隐私制定规章政策【7,50,51】。目前，在ChatGPT中输入的任何数据提示都会被转移到OpenAI公司的服务器上，没有任何法律约束，引起了对数据隐私的担忧，这与许多国家的个人数据隐私立法不符。保护人工智能系统和数据是医疗和医学领域生成式人工智能应用的另一个关键问题，这需要足够的数据保护机制，以防止未经授权的访问，以及对抗网络攻击的保护【52】。这些问题阻止了在医疗和医学实践中直接使用商业产品，例如ChatGPT。它们驱动着与适当的规范、价值观和设计目标对齐研究生成式人工智能和LLM【53】。

解决AI算法中的偏见 众所周知，基础LLM可能产生不真实、有偏见、有毒、幻觉或对用户无益的输出【48】。这是因为训练目标是预测文本中的下一个标记，而不是帮助和安全地遵循用户的指示【26】。例如，OpenAI公司意识到，他们的InstructGPT模型在文化价值上存在偏见，因为它经过训练以用英语遵循指示【48】。如果训练数据不代表不同人群或不是最新的，可能会引入偏见甚至错误，这可能加剧医疗差距并危害患者安全【54】。因此，Kung等人建议进行强有力的AI故障模式分析（例如，语言解析错误），揭示不准确性和不一致性的病因【15】。同样，LLM评估者对LLM生成的文本存在偏见的风险【36】。

3.6.4. 人工智能模型“幻觉”对医疗保健的影响语言模型的一个明显局限是幻觉，指的是语言模型可能生成虽然合理但未经验证、不正确或错误的信息[48]。这一障碍可能在医疗保健应用中造成严重后果[18]，导致可能危及患者安全的不适当医疗决策[38]。这个故障可能进一步引起深刻的法律和责任后果。Umapathi等人对常见的语言模型进行了幻觉测试，包括Text-Davinci、GPT-3.5、Llama 2、MPT和Falcon [18]。他们通过将来自美国、西班牙、印度和中国台湾地区的医学考试问答结合起来，组成了一个新的幻觉基准数据集Med-HALT（医学领域幻觉测试）。他们在Med-HALT上进行了两种类型的测试，即推理测试和基于记忆的幻觉测试，利用准确性和逐点分数作为度量标准。后者将得分作为正确答案的正分数之和，并对不正确答案施加负惩罚。

他们的研究结果表明，Llama 2和Falcon在所有幻觉任务中表现优于商业变体，如GPT-3.5和Text-Davinci [18]。具体来说，Llama 2 70B 在虚假信心测试的推理任务中表现出色，准确率为42.21%，得分为52.37。相反，Falcon 40B 在推理伪造任务中表现出色，实现了99.89%的准确率和18.56的得分，说明其能够区分真实和虚构的问题。在信息检索任务中，Falcon模型优于OpenAI的GPT模型，其中Falcon40B在所有任务中实现了最高的平均准确率（43.46%）。然而，这些模型都未达到对两项任务的可接受准确性水平，突显了当前语言模型中幻觉问题的持续性。研究人员还发现，指令调整和RLHF对模型控制幻觉的能力产生了负面影响。基于有限基准来评估语言模型的临床知识的当前方法已不再足以满足这些复杂需求[6]。因此，在将这些技术整合到医疗保健应用中的过程中，继续研究理解和减轻语言模型中的幻觉仍然是一项重要工作。

3.7. 未来的研究和发展方向

3.7.1. 建立负责任人工智能的立法、政策和框架各国政府在应对尖端生成式人工智能技术带来的诸多机遇和挑战方面正处于不同的成熟阶段。作为带头人，美国政府已着手构建一个强大的国际框架，以管理人工智能创新的创造和利用，重点放在“确保美国人安全”的原则上 [2]。最近白宫发布的一则新闻强调了负责任人工智能的三个基本原则：安全、安全性和信任。2023年7月21日，拜登总统召集了来自七家领先的人工智能公司——亚马逊、Anthropic、谷歌、Inflection、Meta、微软和OpenAI的代表，征求他们对负责任人工智能实践的自愿承诺 [2]。这标志着在人工智能行业内为负责任人工智能制定监管框架迈出了一大步。这些公司承诺在发布他们的人工智能系统之前遵守内部和外部的安全测试协议，并与行业同行、政府、民间社会和学术界分享有关管理人工智能相关风险的重要信息。他们的承诺还延伸到投资于网络安全和内部威胁，特别关注保护专有和未发布的模型权重。拜登-哈里斯政府表示其打算通过行政命令正式化这些原则，并推动两党立法，肯定美国在负责任创新方面的主导地位。此外，美国政府已与包括澳大利亚、巴西、加拿大和英国在内的二十个国家就这些自愿承诺进行磋商 [2]。

与美国齐头并进的是英国政府，他们正在积极参与一项关于该国人工智能监管框架的公开征询过程，该框架建立在五个原则基础上：（1）安全、安全性和稳健性；（2）透明度和可解释性适度；（3）公平；（4）问责和治理；以及（5）可争议性和救济 [55]。这些原则将以非法定的方式宣传，并由现有监管机构执行，利用他们的领域专长来调整这些原则的应用，使之适用于人工智能将被应用的具体背景。英国政府的立场强调了一个务实、相称的方法，促进负责任创新。它采取了一个故意敏捷和迭代的方法，意识到这些技术发展的迅速速度。

在评估LLMs在医疗保健和医学中的利用方面存在一个研究空白，特别是与基础模型相关的同质化和偏见放大问题，以及由此继承的安全漏洞 [31]。这突显了负责任人工智能治理具有多方面的特性，需要整合法律、伦理和技术考虑。

3.7.2. 人工智能对齐研究对实际情境中生成式人工智能技术实施所涉及的伦理、法律和风险问题的关切推动了人工智能对齐研究。这一研究领域旨在调整模型的输出，使其符合其人类开发者和用户的规范、价值观和设计目标[53,56]。最终目标是构建有益、诚实和符合伦理标准的对齐模型[48]。然而，让模型输出与不同用户群体的价值观保持一致可能会引发意想不到的负面后果，对不同群体产生潜在社会影响[49]。挑战进一步加剧于利用自动化度量标准全面概括复杂和主观对齐目标的困难中[36]。相关困扰是在特定任务上降低性能的权衡，被称为“对齐税”[48]，以及考虑医学共识的流动和演化性质的必要[6]。

传统方法评估LLM的临床知识通过受限基准测试不足以满足这些多方面需求[6]。同时，专注于伤害检测和减少的对齐研究是零碎的，缺乏促进技术显著发展的潜力[53]。基于对人工智能聊天机器人与人类回答者之间语言交流基本要素的哲学检验，Finlayson等人确定和描述人类与聊天机器人之间互动的最佳会话规范，并建议在医疗保健等各个领域使用这些规范来对齐人类价值观。

在这些思考背景下，对齐研究将继续是生成式人工智能社区的一项主要挑战[57]。这需要建立负责任和包容性决策程序，例如迅速识别和沟通AI决策中的不确定性给用户[5]。实现这些目标需要跨学科合作，以定制跨领域和文化景观的对齐方法[48]。一个人类中心的生成式人工智能发展三阶段路线图概述在三个层面上这种跨学科协作的AI发展：与人类价值观对齐、容纳人类意图表达，以及在协作工作流程中增强人类能力[56]。迄今为止，对齐研究是成功将生成式人工智能技术纳入安全关键的医疗保健和医药领域中的一个关键调查领域。

3.7.3. 在医疗保健与医学中获得人类反馈的强化学习RLHF是一种低税对齐方法，通过精心设计的少量提示可以显著提高整个模型的性能[48]。因此，增长和创新的关键领域在于RLHF领域，制定和发展定制提示策略[56]，以及精心设计的奖励功能[58]在不同用例中的运用。这种方法将把对齐研究聚焦于AI在医疗保健和医学中整合的迫切需要，考虑到这些领域的独特逻辑挑战和固有风险。

设计创新性的参与式和共同设计方法与领域专家的合作是至关重要的[56]。负责创建LLM的公司必须努力通过在系统设计、培训、测试和实施阶段保持持续的人类参与来增强其模型[59]。这种方法将确保人类监督或联合驾驶，以优化技术的效力，同时采取前瞻性的立场来解决现有局限，并在医疗保健领域进一步推进AI应用。

3.7.4. 开发新的方法预防幻觉包括Text-Davinci、GPT-3.5、Llama 2、MPT和Falcon在内的普通LLM的功效在设计良好的幻觉评估中表现不佳[18]。Umapathi等人发现，这些LLM对提示框架和解码参数过于敏感。这些参数的微小变化导致先前产生准确响应的模型开始出现幻觉性错误输出。这种现象表明有必要进一步研究，以提高LLM在不同环境中的稳健性。因此，开发新的方法防止模型输出出现幻觉对于确保在医疗保健和医学安全关键领域内负责任使用AI至关重要。

3.7.5. 开发新的评估方法医疗保健的内在广度、复杂性和高风险要求不断发展坚韧的评估方法和框架，以确保LLM在这些特定领域内的对齐[16]。这一努力需要AI研究人员、临床医生、消费者、社会科学家、伦理学家和政策制定者之间的跨学科合作。应用各种科学和社会文化观点是解决社会和环境影响的关键，从而确保公平和负责任的AI创新[6]。与BERTScores等相似性度量分数的使用相关的一项重要挑战在于过于关注与黄金标准（例如医生的回答）的相似之处，而不是评估生成内容的准确性或适用性[32]。尽管人类分析过程至关重要，但可能既耗时又容易受到不同评估者的变异和偏见的影响[32,60]。还需紧迫评估AI生成的响应中蕴含的同理心[44]，并制定严格的规范，促进人类对LLM在现实工作流程和临床场景内表现的评估[16]。

使用相似性度量分数（如BERTScores）来评估LLM输出所面临的一个值得注意的挑战在于过于狭窄地关注与黄金标准（例如，医生的回应）的相似度，而不是评估生成内容的准确性或适用性。人类分析过程虽然至关重要，但既可能耗时又容易受到不同评价者之间的变异性和偏见的影响。此外，迫切需要评估AI生成响应中所包含的同理心，并制定严谨的评估规范，以促进人类对LLM在现实工作流程和临床场景中表现的评估。

需要进行详细的成对评估和对抗性评估，以区分Med-PaLM 2响应的表现与医生创建的响应。因此，对抗性数据可以系统地扩展到包含健康公平，并允许对敏感数据集进行单独审查。此外，评估过程应该扩展到多轮对话和促进积极信息获取的框架。

因此，在医疗保健和医学领域内对LLM的表现、公平性、偏见和公平性进行批判性评估的需求。评估过程应该融入多元化观点、患者价值观和临床使用案例。还必须探索技术策略，以有效识别和减少偏见，有助于构建医疗保健和医学领域生成式AI更为细致、响应灵活的框架。

3.7.6 LLMs在真实世界的医疗保健和医学环境中的应用。Li等人审查的58篇文章都是实验报告。许多报道的研究都集中在相对简单的多项选择医学问题回答任务上，没有一篇报道了ChatGPT在临床环境中的实际部署情况。这一缺失反映了医疗保健和医学的基于证据和严谨的性质，在这些领域中，任何技术实施都必须经过严格设计、开发和彻底测试后，才能被医疗提供者和消费者采用。与此同时，社会对AI相关风险的高度警惕，包括偏见、道德考量和虚假信息，是不容忽视的。

有大量的自由文本数据可供使用，LLM和生成式人工智能在医疗应用中展现出了很大的潜力[35]。前进的道路需要进一步的实证研究来验证LLMs在实际医疗保健和医学环境中的功效[16]。临床领域面临的一个关键挑战是将患者信息准确收集并综合到评估和护理计划中[6]，进而创建反映真实临床职责和工作流程的基准任务，成为未来研究的一个必要途径。在此基础上，需要开展更多的随机试验来评估AI助手在增强临床医生与患者沟通、减轻临床医生疲劳和改善患者结果方面的效用[44]。

4. Conclusions 结论

本文探讨了生成式人工智能和LLMs在医疗保健领域的变革潜力。它深入研究了基础机制、多样化应用、学到的见解以及与这些技术相关的伦理和法律考虑，突出了RLHF在模型开发中的独特作用。这个范围审查的局限性在于其非穷尽性质，因为它没有在特定时间段内对所有现有文献进行全面系统的评估。从arXiv中包含了众多尚未经过严格同行评审的论文可能会降低研究的严谨性。

与传统基于规则的人工智能不同，这些当代技术赋予了领域专家权力，并且需要临床医生和消费者共同参与的协作式设计过程。全球努力集中在探索伦理、透明度、法律影响、安全性和偏见减轻等领域的众多机遇和挑战。改善医疗保健质量、安全性和效率的承诺是巨大的。医疗机构应积极参与这些技术，并坚持伦理标准。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业