我要投稿

使用大型语言模型进行眼科教育

发布日期：2024-07-30 23:16:05 浏览次数： 2221 作者：南极星医学AI笔记

摘要

基础模型是下一代人工智能，具有为医疗保健提供新颖用例的潜力。大型语言模型（LLMs），一种基础模型，能够进行语言理解和生成类似人类的文本。研究人员和开发人员一直在调整LLMs以优化它们在特定任务中的表现，如医学挑战问题。直到最近，调整还需要技术编程专业知识，但OpenAI发布的自定义生成预训练变换器（GPTs）允许用户使用自然语言调整自己的GPTs。这有望在全球范围内普及高质量定制LLMs的访问。在本次综述中，我们提供了LLMs的概述，它们是如何调整的，以及自定义GPTs是如何工作的。我们提供了三个在眼科学中自定义GPTs的用例，以展示这些工具的多功能性和有效性。首先，我们介绍了“EyeTeacher”，它从临床指南生成问题以促进学习。其次，我们构建了'EyeAssistant'，这是一个临床支持工具，它通过临床指南进行调整以响应各种医生查询。最后，我们设计了'GA的GPT'，它通过分析同行评审的文档，为临床医生提供地理萎缩新兴管理策略的全面总结。综述强调了在眼科学中为特定任务调整GPTs时自定义指令和信息检索的重要性。我们还讨论了LLM响应的评估，并解决了它们在临床应用中的关键方面，如隐私和问责。最后，我们讨论了它们在眼科教育和临床实践中的潜力。

引言

基础模型是构建人工智能（AI）系统的新范式。由于计算能力的提高、transformer模型架构的发展和大数据集的可用性，它们已经获得了相当大的吸引力。1自然语言处理（NLP）领域已经看到了显著的实际应用，随着大型语言模型（LLMs）的出现。2LLMs是基础模型，它们在大规模的文本语料库上进行训练，这使得它们具有语言理解和生成类似人类文本的能力。1 3 一个著名的例子是生成型预训练变换器（GPTs）。3人们对评估LLMs在医疗保健中的作用越来越感兴趣。4尽管LLMs没有专门训练医学知识，但它们在包括医学挑战问题在内的许多领域展示了泛化能力。5随着LLMs的更新，它们在回答医学考试问题方面的表现正在提高，包括眼科学领域。4 6–11 然而，由于这些通用模型可能没有在经过审查的医学信息上进行训练，因此在患者护理中的部署将是一个挑战。12 为了解决这个问题，可以使用特定领域的信息来调整通用LLMs。例如，BiomedBERT和BioGPT等模型已经训练了同行评审文献的内容，而Med-PaLM则训练了临床问题数据库。4 13 14 模型也可以进行特定于任务的调整，例如指令调整，Med-PaLM 2就是这样。这些方法在生物医学NLP任务中显示出了相当大的增益，包括回答医学考试问题。7 15

提示策略（查询模型的不同方式）也可以用来增强模型。这方面的一个例子是Medprompt。它使用创新的提示策略与GPT-4一起，超越了使用特定领域和特定任务调整的Med-PaLM 2，在回答医学考试问题方面。5

尽管这些解决方案很有价值，但仍然存在一个问题，即由于训练和调整是使用截至某个时间点的数据快照来进行的，因此无法捕捉到最新的信息。16 由于数据的广泛性和训练过程的耗时性，更新LLMs知识库存在固有的延迟。这在医学领域尤其重要，因为最新的知识和基于证据的实践是高质量医疗保健的基础。最近，一些LLMs被增强为具有实时互联网浏览能力，允许它们搜索互联网以获取最新的内容来制定回应。17 18 最新的医学信息是基于证据的医学的一个重要特征，19 因此在临床环境中使用的LLMs中具有实时信息是一个关键特征。

在2023年11月，OpenAI引入了一项功能，允许用户使用自然语言自定义自己的GPT。20 在此交互过程中，GPT开发人员可以提供自定义指令给GPT，以确定其功能、与用户的互动、回答问题的方式、语气以及它如何检索信息。可以指示GPT使用外部工具，如互联网搜索和/或开发者上传的文档。实际上，这利用了自定义GPT的自然语言能力和从预定来源检索信息的能力。这种程度的定制可以帮助克服LLM提供错误信息的问题，并在更多地依赖使用可信的预定来源时减少不准确性的问题。21

在本综述中，我们提供了三个在眼科学领域中自定义GPT的用例以及临床医生如何与这些工具互动。首先，“EyeTeacher”是一个教学工具，它从选定的临床指南中创建问题。其次，“EyeAssistant”是一个临床助手，它回答临床查询，调整到临床指南。第三，“GA的GPT”可以通过检索上传到GPT的同行评审文档中的信息，为临床医生提供地理萎缩（GA）当前管理的概述。通过这些示例，我们展示了如何通过仔细的自定义指令和信息检索来调整ChatGPT以完成特定任务。我们还回顾了如何评估LLM，并探讨了在临床实践中使用这些工具的隐私和问责问题。

自定义LLMs

LLMs在大型文本语料库上进行训练，积累了超过一万亿个单词。3 22 许多模型已经出现，并通过各自界面提供，如Gemini（由Google开发）、GPT-4（由OpenAI开发）、Claude 2（由Anthropic开发）和LLaMA（由Meta AI开源）。23 这些模型可以用特定领域的信息进行微调，但这需要技术编程专业知识。一个微调模型的例子是Neuro-GPTx，这是一个内容丰富的聊天机器人，用于管理听神经瘤，训练了超过4000篇同行评审文章。24 另一个例子是Almanac，这是一个基于药物的模型，它从教科书和预选的网页文档以及浏览预定网页域中获取特定领域的知识。21 模型架构中还嵌入了一个计算器，可以克服模型无法计数的限制。这些功能可以改进回答临床情景问题的准确性和可靠性。21

自定义LLMs包括各种方法，包括数据驱动策略和关注交互级别增强的方法。25 这些方法可以有效地组合使用，以优化模型性能和适应性。在数据层面，可以通过监督式调整或微调使用标记示例的数据集来调整预训练的LLM。26 这种方法需要大量高质量输入-输出对，以创建一个为所需领域特定响应量身定制的定制模型。尽管通常需要技术专业知识，但出现了更多易于使用的调整方法，例如Google生态系统中的方法。27 例如，Vertex AI允许用户在自动化机器学习框架中上传JSON Lines文件以调整LLM。

在交互级别，提示工程和检索增强生成（RAG）可以通过与用户输入和外部信息源的交互，分别提供进一步的自定义。提示工程（和自定义指令）通过自然语言指令指导模型行为，使它们更加适应特定用户需求。28 这是通过LLMs从指令中临时学习而不会改变其内部参数的能力实现的。3 29 另一方面，RAG使LLMs能够通过在外部来源上奠定其知识来增强其响应。30 LLMs将从一组固定来源（如文档）检索知识，类似于OpenAI自定义GPTs中看到的情况。除了OpenAI生态系统之外，还出现了其他用户友好工具，包括Cohere AI和Google的NotebookLM。31 32

在本综述中，我们主要关注如何使用自然语言自定义GPT模型以及通过文档上传实现用户友好界面的RAG。这种方法特别适用于医疗保健应用，因为在医疗保健中保持事实正确性、专业语气和遵守临床指南至关重要。

图1展示了通用GPT与自定义GPT架构的简化对比。通用GPT的操作是线性的：用户提示由LLM处理以生成响应。而自定义GPT将自定义指令和特定领域的知识整合到过程中。在这里，用户提示与开发人员提供的自定义指令结合，引导LLM，LLM还可以检索外部知识（例如，网络搜索、临床指南和数据库）以产生一致的响应。GPT，生成型预训练变换器；LLM，大型语言模型。

自定义GPT

调整自定义GPT涉及使用自然语言的自定义指令和通过RAG的内容检索。我们在图1中概述了自定义GPT的工作原理。‘GPT Builder’是自定义GPT的后端，允许用户使用自然语言调整模型，如图2所示。目前，可以为RAG提供多达10份文档，每份文档的令牌限制为200万个。33 令牌是LLM用于处理文本的分析单位。一个令牌大致相当于四个字符，相当于0.75个单词。34 每份文档200万个令牌相当于大约150万个单词，这对于大多数临床文档、指南和教科书来说都是足够的。

自定义指令可以使模型更加可调，以适应特定的用户意图。在医疗保健中，您可能希望模型保持事实正确性、专业语气、隐私和保密性、限制认识和风险沟通等。关于内容检索，LLM倾向于虚构信息，这通常被称为“幻觉”。35 36 这对于临床使用是一个问题，并将限制LLM的部署。RAG可以通过将模型建立在补充LLM内部眼科表示的外部知识来源上来改善LLM的输出并减少幻觉。37 对于我们的自定义GPT，我们与循证医学的价值观保持一致，提供同行评审文献和临床指南作为特定领域的知识。38 临床指南尤其有价值，因为它们代表了一个特定组织专家小组的共识。39 40 通过将自定义GPT定制到临床指南，我们可以提供适应当地医疗保健环境的特定领域知识。

用例教育：生成问题的主动学习

“EyeTeacher”展示了用户如何通过自定义GPT生成的答案来增强对临床指南的理解。作为一种主动学习工具，这种学习方法可以促进更有效的知识获取和保持。41 作为示例，我们提供了来自皇家眼科学院的两份关于糖尿病视网膜病变（DR）和闭角型青光眼（ACG）管理的临床指南。42 43 我们选择这些主题，因为它们是普通眼科医生常见的情况。这两个指南都在自定义GPT的令牌限制内（DR：147页，大约66000个令牌。ACG：44页，大约19000个令牌）。我们在图3中展示了一个示例。

我们指示自定义GPT成为一个互动、主动学习工具，生成单选问题，有最佳答案。问题将从上传的文档中生成。我们还指示GPT询问用户的经验水平，并根据用户的经验水平调整问题的难度。为了保持医学题库的格式，我们指示GPT为答案提供解释。对于内容检索，GPT被指示从提供的文档中创建问题。与EyeTeacher互动的能力类似于与个人导师对话。它为用户提供了灵活性，使他们能够引导自己的学习。他们可以要求更简单或更难的问题。他们可以选择主题，并在需要时请求澄清主题。我们提供的示例来自一份临床指南；然而，您也可以通过上传笔记并询问特定主题的问题来使用这种方法准备考试。

图2 自定义GPT是通过使用构建聊天机器人用自然语言构建的。GPT Builder允许用户使用自然语言输入自定义指令并上传特定的知识数据集以供检索。这些修改在GPT的后端实施。此外，构建器提供了增强或限制功能选项，例如网页浏览、图像创建和代码解释和生成，尽管后者可能与我们特定的用例不太相关。GPT，生成型预训练变换器。

图3 EyeTeacher是一个为教育目的构建的自定义GPT。在这个增强的学习场景中，EyeTeacher提出了关于糖尿病黄斑水肿的单选题。当学生选择一个答案时，EyeTeacher会详细说明为什么这个答案是正确的，并解释为什么每个干扰项是错误的。这种方法至关重要，因为它不仅仅是验证学生的选择，而是教育他们每个选项的细微差别。这种方法促进了主动学习，因为学生不仅记住正确答案，而且理解每个选项背后的逻辑。这些解释没有幻觉，事实上是正确的。GPT，生成型预训练变换器。

临床助手：与临床指南互动

“EyeAssistant”与“EyeTeacher”使用了相同的临床指南，但具有不同的自定义指令，导致不同的用例和使用体验。这个用例的目的是作为一个临床助手。用户可以与助手进行对话，助手拥有来自临床指南的特定领域知识。医生通常通过阅读指南来查询信息；然而，“EyeAssistant”提供了一种互动体验。用户可以要求查看指南的特定部分，并提供临床信息，如检查结果或人口统计信息。EyeAssistant将浏览和检索相关内容。为了提高可靠性，我们可以向GPT添加自定义指令，如果提供的信息不足以生成答案，则要求进一步澄清。我们提供了一个示例，如图4所示。

图4 EyeAssistant是一个为临床支持构建的自定义GPT。在这个临床场景中，EyeAssistant就窄角或原发性闭角型青光眼嫌疑的管理提供了基于证据的响应。从指南中，它识别了可能需要预防性虹膜切开术的闭角型青光眼的风险因素。当被要求证明答案并描述流行的中山角闭塞预防试验时，它充分总结了发现并将其置于伦敦眼科医生的背景下。这些解释没有幻觉，事实上是正确的。GPT，生成型预训练变换器。

使用自定义GPT总结同行评审研究

自定义GPT已成为从同行评审文章中总结和提取知识的强大工具。这些自定义模型在文献回顾的传统方法中具有多个优势，包括增强的可访问性、高效的知识发现和个性化学习。使用自定义GPT进行同行评审研究总结的主要好处之一是它们能够将复杂的科学文献转化为简洁易懂的语言。这使得信息更易于被更广泛的受众访问，包括研究人员、临床医生甚至患者。通过提炼研究文章的关键发现、结论和意义，自定义GPT可以弥合科学专家和那些寻求理解其领域最新进展的人之间的差距。

在我们的用例示例中，“GA的GPT”总结了GA的最新治疗同行评审文章。自定义指令包括定制响应给临床医生和科学家，并以专业但对话的语气提供有关GA的知情答案。它将专注于提供准确和相关的信息，同时避免推测，不提供针对特定患者的医疗建议。对于内容检索，“GA的GPT”专门从提供的文档中检索信息，包括新的关键GA试验。44 45 截至撰写本文时，上传文档的上限为10份；然而，随着我们预计自定义GPT能力的进一步增强，我们可能会看到这一能力的增加。

GA的治疗是一个有趣的例子，因为正在进行许多临床试验以寻找治疗方法。46，最近，一些新药物已被批准用于治疗GA。44 45 然而，对新批准药物的不良事件存在担忧。47 48 因此，“GA的GPT”能够总结最新的文献，为读者提供一个平衡的概述。我们提供了一个示例，如图5所示。

图5 “GA的GPT”是一个自定义GPT，旨在提供关于地理性萎缩治疗信息的平衡。当被问及FDA批准的GA治疗药物时，“GA的GPT”准确地识别了pegcetacoplan（Syfovre）和avacincaptad pegol（Izervay）。它适当地引用了导致它们获得批准的相关关键试验。当被要求讨论这些治疗的功能性益处时，它明智地引用了相关来源，同时承认相关功能性益处仍然有限。在处理安全性问题时，它正确地强调了这两种药物与黄斑新生血管形成风险的增加，以及pegcetacoplan可能导致眼内炎症的风险。当被问及后者时，它还提供了最新的信息，并引用了权威来源，例如美国视网膜 specialists协会（ASRS）ReST委员会。值得注意的是，它错误地将ASRS称为美国视网膜外科医生协会。FDA，食品和药物管理局；GA，地理性萎缩；GPT，生成型预训练变换器。

评估响应

LLM在医疗保健中的使用需要能够避免幻觉并承认其局限性的模型。49 开发LLM的公司意识到这一点，并正在开发更具“诚实性”的模型。例如，Anthropic发布了Claude 2.1。该公司报告称，与前一个版本相比，幻觉的数量减半。50 除了提供更少的错误答案外，Claude 2.1还有更多因缺乏知识而拒绝回答的响应。另一个例子是Almanac。这个模型在事实性方面进行评估，可以通过实时互联网搜索检索和计算器的使用来改进。响应的完整性和安全性可以通过自定义指令来提高。21

目前，对于评估模型和响应没有官方共识；然而，我们可以从评估LLM在回答医学考试问题和总结医学文献的研究中获取见解。15 51 除了评估事实正确性之外，响应还会在多个评估指标上进行评估，包括理解、连贯性、知识回忆、推理、潜在危害和相关性等。4LLM的响应与人类响应进行了比较，这些评估指标也发现审查者更喜欢LLM的响应而不是人类专家。15 24 51LLM可以调整以适应各种创意设置。评估ChatGPT-4对眼科考试问题的答案解释发现，更偏好创意设置。11

保持安全和问责

LLM在医疗保健中的日益采用引发了一个关键问题：对于因使用而产生的任何不良后果，应由谁负责？在现有的法律框架内，临床医生对患者结果负有最终责任。52 临床医生应该像对待其他医疗工具一样，谨慎对待LLM，直到它们的疗效和安全性得到严格验证。如果临床医生希望使用LLM来辅助他们的工作，使用自定义GPT进行调整可以提高相关性。上传自己的文档并设置严格的指令是用户可以应用的方法，以获取更可靠和相关的信息。在医疗保健中，数据的隐私至关重要。如果临床医生在寻求LLM指导时输入患者信息，我们需要考虑如何保持这些信息的私密性。一些LLM提供商正在提供安全的企业服务，以确保与LLM的对话不被用于训练模型，并且是加密的。53 54为了使用LLM在医疗保健中，需要包括隐私控制措施的监管监督。55 这将需要一个框架，可以评估LLM的NLP、翻译价值和治理模型，以确保公平性、透明度、可信度、问责性和隐私性。

自定义GPT的局限性

自定义GPT在医学教育、工作流程改进和临床辅助方面的创新应用展示了巨大的潜力。然而，重要的是要认识到这些工具固有的局限性，以确保它们负责任和有效地使用。

虽然像EyeTeacher这样的工具可以通过生成的提问促进元认知学习，但其效果取决于生成的信息的准确性。如果模型生成错误的内容，可能会加强错误的知识。此外，EyeTeacher可能不会探究学生的弱点，除非学生明确地传达这些弱点。同时，EyeAssistant，设计用于与临床指南互动，可能会导致自动化偏见，用户过度依赖AI生成的响应。58 指南中信息的错误解释或不完整的检索可能会导致错误的临床决策。此外，模型准确检索信息的能力可能因文档的结构和内容放置而异。59–61

对于“GA的GPT”，当前上传文档数量的限制限制了可以总结的信息范围。此外，内容检索的静态形式可能会错过最新的研究发展。要更新这一点，需要手动上传最新的研究。

这凸显了利用实时互联网浏览能力对LLM的好处。确实，最近GA新药物的批准以及对它们副作用的担忧突显了及时全面数据整合的必要性。最后，尽管自定义指令和提示工程提供了灵活性，但它们高度依赖于用户创建有效的提示的能力。这个不断发展的领域需要对LLM如何解释和响应各种提示有细致的理解。提示中的不准确或可疑特征会导致误导或无关的响应。除了这些特定用例之外，LLM的一般局限性包括它们对训练数据的依赖及其潜在偏见，以及它们无法验证生成内容的真实性。这需要在这些准确性至关重要、可靠性至关重要的领域（如医疗和教育应用）中仔细考虑和验证。

结论

基础模型的迅速发展，特别是在医疗应用领域，是一个令人兴奋的发展。随着研究人员和开发人员继续使用专业的调整技术来完善这些模型，我们正在向为医疗应用提供更合适的模型迈进。未来迭代的基础模型及其解决医疗挑战的潜力，是一个吸引人的前景，可能会引领我们走向人工智能。自定义GPT的出现标志着将这些强大工具民主化的重要一步，从而使更广泛的应用成为可能。然而，进一步的研究是必要的，特别是在将这些进步转化为实际医疗环境方面。我们应该关注反映实际临床实践的医疗挑战，以验证这些模型在现实世界中的实用性。随着自定义GPT的出现，现在许多用户有机会测试和适应这些模型。前进的道路呼唤着扎实的研究和协作努力，以充分利用自定义GPT在实际实践中的潜力。我们正处于医疗技术的新纪元，在这个纪元中，AI不仅补充而且显著增强我们的医疗能力。这是一个激动人心的前景，呼唤着在领域内进一步探索和创新。