我要投稿

消除幻觉的知识图谱增强医学大模型 - "Nature"NPJ数字医学杂志

发布日期：2024-05-23 21:06:32 浏览次数： 2117 作者：知识图谱科技

2024.04.23最新发表于“自然Nature”

NPJ Digital Medicine(数字医学)的关于医学大模型的文章

摘要:

知识增强型无幻觉大型语言模型，结合知识图谱，为医学的沟通挑战提供了一种有前途的解决方案，通过增强信息结构化和医疗决策，同时减轻大型语言模型的幻觉等弱点。

- 大型语言模型（LLMs）和知识图谱（KGs）可以相互补充在医学信息处理中的优缺点。

- 通过知识图谱的检索增强生成（RAG）可以通过提供信息结构化的结构推理和真理模型来增强LLMs的性能。

- 将LLMs和KGs结合起来可以提高医学任务的数据准确性和可靠性，解决偏见、幻觉和不准确性等挑战。

- 向量嵌入方法是增强LLMs用于医学信息任务的领先研究领域。

- 通过KGs增强LLMs可以导致为个体患者开发强大数字孪生体，促进个性化预测分析。

- 将LLMs和KGs相结合可能需要质量控制界面和机制来验证解释信息，特别是在关键的医学决策中。

- 监管机构和政策制定者需要在保持怀疑态度的同时认识到LLMs和KGs在医疗保健中的变革潜力，以解决数字医学领域未来的挑战。

正文:

可靠地处理和相互关联医学信息已被认为是医学工作流数字化转型的关键基础，尽管已经开发了医学本体，但优化这些本体一直是数字医学发展的主要瓶颈。大型语言模型的出现带来了巨大的机遇，也许有望解决药物“学术沟通问题”，但如何调和大模型已知的弱点，比如幻觉和非确定性是个挑战。检索增强生成，特别是通过知识图谱，是一种自动化的方法，可以在结构化推理和真实模型领域提供与LLMs相关的信息结构化和决策支持。

在医学领域中被称为“语义问题”的医学“沟通问题”，是指可靠记录医学信息并在系统间实现互操作性的困难任务。这个问题不仅影响到研究人员，也不仅仅是软件系统开发者所关注的高度技术性问题。它对医疗信息的日常链接产生影响，通过医疗保健提供者（HCP）之间的医疗信息技术系统，同时对于HCP的医疗任务自动化和所有医学角色和专业领域都构成挑战。这个“语义问题”增加了医学文档的负担，使任务所需的时间比采用互操作性医学信息系统的时间更长。以往解决这一挑战的方法包括医学本体论和医学知识图谱（KG）的相关技术。

医学本体论记录了生物医学领域中多样的概念共识。领先的本体论包括定义临床术语的SNOMED CT以及描述表型异常的人类表型本体论（HPO），但医学信息的歧义和语境丰富性给它们的采用带来了挑战。

从从业者和患者以不同的角度引用概念（例如，“感冒”与“急性鼻炎”或“急性病毒性呼吸道感染”相对比），以及在术语在不同上下文中具有不同含义的情况下，会产生歧义。例如，“感冒”可以与身体温度的临床测量、环境条件有关，也可以与临床综合症 “急性鼻炎” 或各种病理条件的子组分“感冒[疹] /[凝集素病]”相关。

人类交流中信息的背景丰富程度使医疗记录易于理解，并且对于医护人员来说，这些记录充满了有用的细微信息，但通过计算手段解释这些记录则非常具有挑战性。人类交流的表达能力以及其中的背景丰富性，也对知识图谱（KGs）提出了同样的问题，但是这些图谱提供了更加明确和精心策划的知识库。

KGs以节点表示真实世界的实体，并以边表示它们之间的关系；例如，KGs中关于“COVID-19”和“发烧”这两个节点之间可能通过标记为“具有症状”的边相连。以结构化形式呈现知识进一步使KGs可以作为图数据库进行查询。许多KGs还以机器可读的语义形式表达，比如本体、规则等，这样可以进行推理并推导出新的知识，同时保持真实性。

前文讨论的医学本体可以被视为具有明确定义语义的医学知识图谱，并已被用于医学的各种应用中，尽管作为医学信息的简化和狭窄表达。我们提出的论点是：尽管医学本体和知识图谱是不灵活的，甚至有时是粗略的简化，但通过组合的力量，并在需要可验证的“真实记录”的使用案例中应用，它们提供了一种手段，用于增强大型语言模型的灵活方法。

所有模型都是错误的？其中一些有用的智能组合可能成为某些关键医学提要任务所需要的，以在自由、具有语境丰富的人类通信方式和必须限制上下文并最大程度简化和精确化事实的刚性记录结构之间进行医学信息转化的方法。

为什么医学的“沟通问题”依然存在，应该如何解决？

医学信息常常以难以处理的非结构化自然语言形式存在，尽管通过深度学习对信息进行结构化的进展取得了一定成就，但仍然存在着显著的“交流问题”。

有人提出，大型语言模型带来的技术进步，自2022年以来已经在社会的许多领域产生了深远影响，可能会为包括医学在内的许多领域的语义“交流问题”带来非常重要的突破，甚至可能提供解决方案。大型语言模型是基于深度学习的模型，通过对大规模文本语料进行训练，以提供概率自动补全被隐藏单词的功能。通过对人类反馈进行强化学习等方式进行微调，大型语言模型可以生成对人类来说合理的回应，为对话agent提供动力。它们还展示了在医学领域中进行信息结构化和分类的卓越能力。

然而，大型语言模型存在偏见、幻觉和不准确性，当这些问题与貌似确定性的回应结合呈现时，容易误导用户，对其在临床医学中的许多任务包括医学知识的互操作性和链接性产生疑虑。

这就引出了一个问题：如何在组织医疗保健信息方面发挥大型语言模型的优势，同时遏制它们的弱点？我们将介绍将大型语言模型与包括知识图谱在内的其他数据技术相结合的潜力，以解决数字医学中的交流互通问题。

消除LLM的局限性

虽然LLMs是一个显著的进步，但它们缺乏一个事实模型，并且在可靠地检查自身准确性方面能力有限。LLMs和KGs的一个有趣特点是它们在很多优缺点上互补（表1）。这种互补性打开了将这些方法相结合，创造出一种“梦之队”医学信息处理和交流方法的可能性。

表1 大语言模型（LLM）和知识图谱（KG）的结合具有互补的潜力

大语言模型和知识图谱各自的限制性能与将这些方法融合的互补性进行比较。

算法方法的术语定义如下：

幻觉(hallucination)：虚构可信的事实；
不透明度(opaqueness)：对回答缺乏解释或来源的情况；
陈旧度(staleness)：信息过时；
偏见(bias)：病人群体或病况类型的数据被低估或准确性较低，或者在数据中重复已知的文化刻板印象，常常是种族主义的；
成本(costs)：与训练中手动标记任务相关的能源成本和道德成本；
短尾性(short tailed)：在训练数据中常讨论的主题表现良好，但在深度技术知识领域不好（除非进行了微调）；
经过消除隐私问题(sanitized)：某些通用模型受到限制，以避免包括医学中重要主题在内的有争议的回答；
非确定性(non-deterministic)：回答可能根据时间、提示的措辞、语言等而有所变化；
犹豫不决(Indecisiveness)：面对模棱两可或矛盾的输入时无法做出果断选择；
易用性(Usability)：与人类交互的简易性；
语境解释和推理(contextual interpretation and reasoning)：能够提供超过简单事实回答的能力，具备语境和推理洞察力；
适用性/可接受性用于医学信息任务(Suitability/approvability for medical information tasks)：评估方法适用的任务类型，以及其符合当前国家和国际医疗器械框架的可接受性；

某些列出的属性与当前描述的大语言模型有关，但对底层方法仅部分固有（1）或不固有（2）。

将LLMs和KGs结合的概念方法有很多种：使用LLMs增强KGs，使用KGs增强LLMs，以及以整体的方式结合LLMs和KGs。在第一种方法中，可以利用LLMs从文本中构建、丰富和完善KGs，利用LLMs提取和识别结构的能力（图1a），例如在构建饮食KGs和精准医学KGs方面的应用。这是一个重要的应用，它展示了现代KGs如何通过自动化机器学习方法高效地生成，而不是通过费时费力且不可扩展的手动方法输出。在第二种类别中，KGs可以用于增强LLMs，通过丰富提示信息、验证或解释回答（图1b），例如在医学领域中用于提供可解释的输出。在第二种形式的RAG中，LLMs和KGs可以并行使用或混合使用，以解决特定任务（图1c），例如：

（i）用于回答医学查询；以及

（ii）SapBert，它将在PubMed上训练的语言模型与统一医学语言系统（UMLS）本体知识相结合。

尽管该领域还处于初级阶段，但这些研究工作展示了在未来几年中，关于将LLMs和KGs结合在数字医学中的研究将朝着哪些方向发展。一种相关的方法被称为向量嵌入，它也是RAG的一种形式，但不使用KGs，而是使用从医学网站收集到的非结构化信息（图1b，c）。

我们不专注于这种方法，因为它不使用LLMs进行推理链，因此缺乏KG方法所具有的与LLMs互补的许多特性（表1）。

总结

将组合的LLM和KG方法如何演化？这些方法可以成为强大的个体患者数字孪生的实现者（即，以数字形式呈现最新个体患者数据的代表，用作个体患者健康记录并实现个性化预测分析的基础），其中LLM用于快速创建稳定的个体患者KG，作为稳定的健壮数据结构，可用于补充和验证LLM从新进行的会诊中解释的数据。这种方法有潜力减少LLM的环境影响，因为“传统”的非结构化健康记录中的历史信息可以为患者编码一次，创建一个“数字孪生”，其中的信息可在计算成本较低的情况下检索，并在只有在LLM方法需要时进行更新。

即使将LLMs和KGs相结合，用于自动化医疗信息任务时仍可能导致重要的不准确性。这些技术的特点是增强医生处理这些信息、做出医疗决策的能力的关键。这可能包括设计用于质量控制和交付确认的界面，就像市场上基于LLM的产品（如微软的Nuance Dragon Experience）中所设计的那样，并对解释信息的可靠程度进行差异化标记，以在需要手动验证信息时进行标记提示。

尽管LLM已经迅速应用于医学信息管理的上市产品中（包括信息检索、结构化和相互关联，例如，微软早期将基于GPT-4的Voice-to-SNOMED CT添加到微软Nuance Dragon Experience中），但对于其在这一任务中的准确性和适用性仍存在许多问题。其中一个关于其在医学中使用的最有趣的问题是如何优化它们的优势同时遏制弱点。在此，监管机构和政策制定者需要保持一定程度的合理怀疑，同时也要认识到这些技术的变革潜力。

有人质疑LLMs是否能够在医学上应用，原因是它们的弱点，尤其是幻觉问题；而其他人则描述了现有LLM工具在诊断或治疗决策中获得监管批准的非常具有挑战性的路径（表1，图2），但是通过将LLMs与向量嵌入或知识图谱的增强来至少部分解决了LLMs在独立应用中的许多限制。

在辩论的另一方面，有人建议单独使用LLM方法，也许基于医学特定的训练集、更多的数据以及核心方法的改进，可以达到真正自动化临床文档编制所需的准确性，甚至用于医疗决策，并且可能不需要回退到较旧的方法（图2）。

我们认为RAG方法，尤其是将LLMs与知识图谱相结合，并具有交互式的前后补充性，显示出在关键的医学任务中更好地服务医学的潜力，尤其是在准确性和偏见控制方面。

在这里提出的观点所呈现的，似乎是一个替代性的观点，最近有人描述了三个人工智能时代的模型：

（i）人工智能1.0符号主义AI和概率模型（包括知识图谱）；

（ii）人工智能2.0连接主义深度学习；以及

（iii）人工智能3.0基础模型。

我们描述的“跨时代模型”可能看起来有些天真——新概念肯定会取代旧概念吗？技术、实践和治理的进步通常会整合早期和后期的概念，当早期技术具有互补优势时，这种做法是合理的。

的确，传统的人工智能方法在构建知识图谱方面的自动化不足的局限性，常常存在人为逻辑错误和开发人员偏见编码在规则中，必须通过基于语言模型和深度学习的混合自动化知识图谱生成来取而代之。

最终，只有时间会证明知识图谱本身以及通过知识图谱增强大语言模型的混合方法是否具有持久的力量。矢量嵌入方法是目前用于RAG增强语言模型的研究领域，在一般和医学目的上。它们还不能提供在许多医学信息记录任务中所要求的可验证的“事实模型”。矢量嵌入方法可能会继续发展，最终达到一种水平，具有性能、准确性和可重复性的水平，从而消除基于知识图谱的回答生成的优势，如表1所示。

我们认为，将来会有一系列的回答生成方法，根据具体的临床用例需求（包括监管考虑因素）选择，利用语言模型的强大能力，最终解决医学领域的“沟通问题”。

尽管在监管这些工具的监督方面仍然面临一些挑战，并且在控制它们对环境的影响方面也存在挑战，但毫无疑问，现在毕业的医疗保健专业人员将享受到高度互操作的工具和对临床信息的概括的访问，而这在仅仅5年前是难以想象的。

参考文献：

Augmented non-hallucinating large language models as medical information curators | npj Digital Medicine (nature.com)

https://www.nature.com/articles/s41746-024-01081-0

NPJ Digital Medicine是一本开放获取的在线期刊，致力于在数字医学的各个方面发表高质量的同行评议研究，包括数字和移动技术的临床应用和实施、虚拟医疗、人工智能和信息学的新应用。NPJ Digital Medicine旨在通过结合新的数字和移动技术，指导卫生和医疗保健的创新和转型。在决定稿件是否在范围内时，强调四个标准:新颖性、临床相关性、科学严谨性和数字创新。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业