我要投稿

从数据到应用，BiomedGPT带你领略医学AI的多模态力量

发布日期：2024-08-21 21:07:29 浏览次数： 2218 作者：行客科技

人工智能的快速发展正在逐步改变生物医学领域的研究和应用。然而，目前的大多数生物医学AI模型仍然是专门针对特定任务设计的，这种高度定制化的模型虽然在某些任务上表现出色，但在实际临床应用中却面临着整合不同数据类型和适应多样任务的挑战。在此背景下，通用的医学多模态模型逐渐受到研究者的关注。

最近发表在《Nature Medicine》上的一篇研究文章详细介绍了BiomedGPT——一种多模态通用AI模型，展示了该模型在生物医学领域的广泛应用潜力。通过结合CT、X光、MRI、心电图和电子病例等多种数据，BiomedGPT不仅在放射学视觉问答、报告生成和总结等任务中表现出色，还通过使用公开的多样化数据集，大大增强了模型的适应性和泛化能力。

BiomedGPT的设计与创新

BiomedGPT基于Transformer架构，采用了编码器-解码器结构进行设计，具备处理多种数据类型的能力。它通过以下三大核心步骤构建而成：

多样化预训练任务：在预训练阶段，BiomedGPT采用了14个公开数据集，涵盖CT、X光、MRI等13种数据类型。通过Sequence-to-Sequence学习方法，模型能够从多样化数据中学习到强大的多模态输入处理能力。

任务微调：BiomedGPT在微调阶段选择了多个具有临床应用前景的下游生物医学任务，如视觉问答、图像描述、医学图像分类、文本摘要和文本理解等。通过对这些任务的微调，模型得以适应不同的应用场景。

指令调优：为了进一步提升模型对问题的理解能力，BiomedGPT结合了LLaVA-Med使用的方法，对VQA-RAD、SLAKE和PubMed文章进行了优化调优。

数据集梳理与应用

BiomedGPT的构建离不开高质量的数据集支持。以下是模型开发过程中使用到的主要数据集：

视觉问答：VQA-RAD、SLAKE和PathVQA。
图像描述：IU X-ray、MIMIC-CXR和Peir Gross。
医学图像分类：MedMNIST-Raw、MC-CXR、SZ-CXR和CBIS-DDSM。MedMNIST-Raw涵盖了九种组织类型和七种模态。
文本摘要：MedQSum、HealthCareMagic、MIMIC-CXR和MIMIC-III。
文本理解：MedNLI、MIMIC-III、SEER和TREC2022。

这些数据集的多样性和丰富性为BiomedGPT提供了强大的支持，使其在面对不同的医学任务时，能够表现出色。

临床应用与评估

为了评估BiomedGPT的临床适用性，研究团队针对放射学视觉问答、报告生成以及报告摘要任务进行了人工评估：

放射学视觉问答：从MIMIC-Diff-VQA官方测试集中随机选取52个问题-答案样本进行评测。
放射学报告生成：从MIMIC-CXR数据集中随机选取30对图像-报告样本。
放射学报告摘要：在MIMIC-CXR中随机选取100个报告进行摘要生成，并与人工摘要进行对比。

评估结果显示，BiomedGPT在多个任务上表现优异，尤其是在处理放射学影像和生成医学报告方面，展示了其强大的应用潜力。

BiomedGPT的开发不仅展示了通用AI模型在生物医学领域的巨大潜力，也为未来的医学AI研究提供了宝贵的经验。通过系统整理与分享BiomedGPT所使用的33个数据来源，希望能够为读者的科研工作提供帮助。同时，随着更多高质量数据的开放和使用，类似BiomedGPT的多模态通用模型必将在医学研究与临床应用中发挥更为重要的作用。