我要投稿

Meerkat-7B：一种新型医学人工智能大模型系统

发布日期：2024-04-23 07:05:13 浏览次数： 1764

本期文章中，小编为大家介绍一种名为Meerkat-7B的新型医学人工智能(AI)系统，它基于Mistral-7B模型，并通过医学教科书中提取的高质量推理路径进行了微调，从而获得了增强的推理技能。Meerkat-7B的开发旨在解决商业大型语言模型(LM)在医学领域应用中面临的隐私和安全问题，以及开源模型由于参数限制而在处理复杂医学问题时推理能力不足的问题。我们的系统在七个医学基准测试中均取得了显著的准确性提升，超过了GPT-3.5以及其他7B规模的模型，如MediTron-7B和BioMistral-7B。

本文介绍的研究提出了一种名为Meerkat-7B的新型医学AI系统，旨在解决现有大型语言模型在医疗领域应用时面临的隐私和安全挑战，同时克服了开源模型在处理复杂医学问题上因参数限制而缺乏必要推理能力的问题。通过结合来自医学教科书的高质量推理路径以及多样化的指令遵循数据集，Meerkat-7B能够在多个医学基准测试中显示出优异的性能，超越了先前的模型。

基于 MedQA 基准的性能概述语言模型 (LM) 的最新进展。大型闭源模型已经超越了 USMLE 通过门槛，达到了 90% 准确率的最先进性能。另一方面，之前最好的开源模型 MediTron-70B的得分仅为 70.2%，而没有 7B 规模的模型能够突破 USMLE 通过门槛（60%）。我们的新开源模型Meerkat-7B准确率达到74.3%。

系统介绍与创新

Meerkat-7B是一个具有70亿参数的医学专用AI系统，它基于Mistral-7B模型并采用了一系列创新技术进行微调，特别是利用了从18本医学教科书中提取的高质量链式推理路径和从这些教科书自动生成的问题-答案对。此外，Meerkat-7B也融入了各种医学领域的指令遵循和聊天数据集，使其能够更准确地解决复杂的医学问题。

生成综合思想链 (CoT) 数据的整个过程。(1) GPT-4 被提示为来自 MedQA的 USMLE 风格问题提供答案以及分步解释，从而创建了 9.3K CoT 数据。(2) GPT-4 接收来自 MedQA 的三个随机抽样问题和来自医学教科书的文本块作为输入，以生成合成问答对。(3) 然后提示 GPT-4 对这些生成的问题生成逐步解释，从而产生额外的 78K CoT 数据

主要结果与性能

在多个医学基准测试中，包括USMLE样式的测试，Meerkat-7B显示出了显著的性能提升，不仅在7B模型中首次超过了USMLE的及格阈值，而且在包括MedQA在内的多个测试中设置了新的性能基准。相较于GPT-3.5等大型模型，Meerkat-7B在提供日常临床查询的详细自由形式回答方面，展现了与之媲美的性能，这一点尤为值得注意。

由人类专家和 GPT-4 为 USMLE 风格的问题提供的解释示例。与人类的答案相比，GPT-4 提供的答案明显更详细、更全面、更准确。人类的解释源自 Singhal 等人的研究。

研究方法与数据集

我们采用了一种创新的方法，通过结合来自医学教科书的推理路径以及从这些教科书中自动生成的问题-答案对来微调Meerkat-7B模型。这包括了9.3K个USMLE风格的问题及其对应的推理路径，以及78K个高质量的合成链式推理数据。此外，我们还利用了各种指令遵循和聊天数据集，以应对医学领域的广泛用例。

基准数据集和使用的评估指标的统计。“# Examples”：每个数据集的测试示例数量。K-QA 数据集需要自由格式的响应作为答案，而其他数据集由多项选择 QA 问题组成，必须从给定的选项中选择正确的答案

讨论与展望

Meerkat-7B的成功展示了通过学习教科书中的推理路径来提升小型开源模型在复杂医学问题上的性能的潜力。虽然在详尽性方面表现出色，但Meerkat-7B在事实性方面相比于大型模型如GPT-3.5和GPT-4还有提升空间。未来研究将探索进一步提升小型模型可靠性的方法，包括开发能够有效记忆广泛医学知识或采用检索增强方法的策略。未来研究组将公开Meerkat-7B的模型权重和训练数据，包括CoT数据和新的MedBooks-CoT-18数据集，为医学AI领域的研究和应用提供支持。

在 MedQA 基准上使用三个不同数据集训练的五种语言模型的性能比较。Mistral-7B和 Gemma-7B表现最好，尽管不是生物医学的专用模型。“MedQA”：仅使用 MedQA 训练集中的问答对来训练模型。“MedQA CoT”：使用 MedQA 问答对和相应的 CoT 推理数据训练模型。“MedQA-CoT + MedBooks-CoT-18”：使用 MedQA-CoT 数据和从教科书生成的附加 CoT 数据训练模型。请注意，Mistral-7B 被用作我们的骨干模型。

本研究介绍了Meerkat-7B，一个基于Mistral-7B模型并通过从医学教科书中提取的高质量推理路径进行优化的医学AI系统。这一系统旨在解决大型商业语言模型在医疗领域应用中面临的隐私与安全问题，同时提升开源模型在复杂医学问题上的推理能力。该研究不仅展示了小型模型在医学推理方面的巨大潜力，也为未来的医学AI研究提供了重要的数据资源和技术基础，预示着在医疗决策支持系统中小型语言模型的广泛应用前景。

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

2024-05-22

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

更改ollama模型存储路径

2024-04-25

全面对比dify、coze、streamlit、chainlit

2024-04-26

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

大家都在问

大模型开发的全景解析：如何找到最适合你的平台？

2024-10-05

GPTs、扣子、Dify：为什么这些平台无法替代大模型开发技能？

2024-10-05

Graphiti：如何让构建知识图谱变得更快、更具动态性?

2024-10-03

为什么中国会在AI竞争中最终取得胜利?

2024-10-01

o1的规划能力如何？LRM是未来吗？

2024-09-30

大模型RAG不存在了么？

2024-09-30

DICoT模型让AI学会自我纠错，提示词工程终结？

2024-09-30

大模型时代，GPT分类器会比BERT分类器更好吗？

2024-09-29

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询