微信扫码
与创始人交个朋友
我要投稿
1. 动机
近来,随着深度学习技术的进步,大语言模型(Large Language Model, LLM)在多种自然语言处理任务中取得了喜人的成果,特别是在创建端到端指令遵循的对话系统方面的潜力。另一方面,大健康以及智能医疗这一话题占据了社会舆论的前沿,逐渐成为人们优先、重点考虑的问题。在这一背景下,本文致力于开发一个智能医疗对话系统,以更广泛地提供专业、可访问且负担得起的医疗资源,确保医疗资源公平分配,并提高医疗保健提供者和患者之间的沟通效率。
然而,医疗咨询场景复杂,个人助手需有深厚医学知识和多轮对话能力以提供专业回答。通用语言模型常缺乏医学知识,易答非所问且缺乏满意的多轮追问能力。此外,高质量中文医学数据集稀缺,给训练医疗专业语言模型带来挑战。
为了面对这些挑战,复旦大学数据智能与社会计算实验室(FudanDISC)发布中文医疗健康个人助手——DISC-MedLLM。该团队精心构造了包含47万高质量的监督微调(SFT)数据集——DISC-Med-SFT,在通用领域中文大模型Baichuan-13B上进行训练。在单轮问答和多轮对话的医疗健康咨询评测中,模型的表现相比现有医学对话大模型展现出明显优势。
2. 贡献
3. 方法
图 1 模型优势以及框架图
3.1 数据集DISC-Med-SFT的构造
表 1 DISC-Med-SFT数据集介绍
图 2 AI医患对话重构示例
此外,该模型在CMeKG的基础上,根据疾病节点的科室信息在知识图谱中进行采样,利用适当设计的GPT-3.5模型Prompts,总共生成了超过5万个多样化的医学场景对话样本。
另外,在训练的最终阶段,为了进一步提高模型的性能,该模型使用更符合人类行为偏好数据集进行次级监督微调。从MedDialog和cMedQA2两个数据集中人工挑选了约2000个高质量、多样化的样本,在交给GPT-4改写几个示例并人工修订后,使用小样本的方法将其提供给GPT-3.5,生成高质量的行为偏好数据集。
图 3 模型训练架构图
4. 实验结果
本文在两个在两个场景中评测医学LLMs的性能,即单轮QA和多轮对话。
单轮QA评测:为了评估模型在医学知识方面的准确性,我们从中国国家医疗执业医师资格考试(NMLEC)和全国硕士研究生入学考试(NEEP)西医306专业抽取了1500+个单选题,评测模型在单轮QA中的表现。
多轮对话评测:为了系统性评估模型的对话能力,我们从三个公共数据集——中文医疗基准评测(CMB-Clin)、中文医疗对话数据集(CMD)和中文医疗意图数据集(CMID)中随机选择样本并由GPT-3.5扮演患者与模型对话,提出了四个评测指标——主动性、准确性、帮助性和语言质量,由GPT-4打分。
表 2 单轮QA评测结果
表 3 多轮对话评测结果
5. 总结
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-21
AI问答,将是患者接触医疗服务的主要方式
2024-11-12
英国20%医生正使用ChatGPT,获取医疗诊断、医疗建议等
2024-11-05
AI革命:加速药物发现,打破15年20亿美元成本魔咒
2024-10-30
ClinicalAgent: 基于大型语言模型推理的临床试验多智能体系统 - 一场医疗AI的革命性突破
2024-10-29
AI赋能传统医疗信息化应用场景分析
2024-10-29
AI医疗项目1--专科知识图谱结合大语言模型对话系统 可做智能问诊和随访
2024-10-28
稀疏建模为尖端医疗应用提供快速、节能且可解释的 AI 解决方案
2024-10-25
AI医疗智能问诊的革命:深度学习在心电图分析中的应用
2024-05-02
2024-06-21
2024-07-01
2024-04-24
2024-04-27
2024-05-23
2024-07-03
2024-06-21
2024-07-03
2024-07-09