微信扫码
添加专属顾问
我要投稿
1. 动机
近来,随着深度学习技术的进步,大语言模型(Large Language Model, LLM)在多种自然语言处理任务中取得了喜人的成果,特别是在创建端到端指令遵循的对话系统方面的潜力。另一方面,大健康以及智能医疗这一话题占据了社会舆论的前沿,逐渐成为人们优先、重点考虑的问题。在这一背景下,本文致力于开发一个智能医疗对话系统,以更广泛地提供专业、可访问且负担得起的医疗资源,确保医疗资源公平分配,并提高医疗保健提供者和患者之间的沟通效率。
然而,医疗咨询场景复杂,个人助手需有深厚医学知识和多轮对话能力以提供专业回答。通用语言模型常缺乏医学知识,易答非所问且缺乏满意的多轮追问能力。此外,高质量中文医学数据集稀缺,给训练医疗专业语言模型带来挑战。
为了面对这些挑战,复旦大学数据智能与社会计算实验室(FudanDISC)发布中文医疗健康个人助手——DISC-MedLLM。该团队精心构造了包含47万高质量的监督微调(SFT)数据集——DISC-Med-SFT,在通用领域中文大模型Baichuan-13B上进行训练。在单轮问答和多轮对话的医疗健康咨询评测中,模型的表现相比现有医学对话大模型展现出明显优势。
2. 贡献
3. 方法
图 1 模型优势以及框架图
3.1 数据集DISC-Med-SFT的构造
表 1 DISC-Med-SFT数据集介绍
图 2 AI医患对话重构示例
此外,该模型在CMeKG的基础上,根据疾病节点的科室信息在知识图谱中进行采样,利用适当设计的GPT-3.5模型Prompts,总共生成了超过5万个多样化的医学场景对话样本。
另外,在训练的最终阶段,为了进一步提高模型的性能,该模型使用更符合人类行为偏好数据集进行次级监督微调。从MedDialog和cMedQA2两个数据集中人工挑选了约2000个高质量、多样化的样本,在交给GPT-4改写几个示例并人工修订后,使用小样本的方法将其提供给GPT-3.5,生成高质量的行为偏好数据集。
图 3 模型训练架构图
4. 实验结果
本文在两个在两个场景中评测医学LLMs的性能,即单轮QA和多轮对话。
单轮QA评测:为了评估模型在医学知识方面的准确性,我们从中国国家医疗执业医师资格考试(NMLEC)和全国硕士研究生入学考试(NEEP)西医306专业抽取了1500+个单选题,评测模型在单轮QA中的表现。
多轮对话评测:为了系统性评估模型的对话能力,我们从三个公共数据集——中文医疗基准评测(CMB-Clin)、中文医疗对话数据集(CMD)和中文医疗意图数据集(CMID)中随机选择样本并由GPT-3.5扮演患者与模型对话,提出了四个评测指标——主动性、准确性、帮助性和语言质量,由GPT-4打分。
表 2 单轮QA评测结果
表 3 多轮对话评测结果
5. 总结
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-06-21
2024-05-02
2024-06-21
2024-07-03
2024-04-24
2024-05-23
2024-04-27
2024-07-01
2024-06-02
2024-06-17