微信扫码
与创始人交个朋友
我要投稿
当前大语言模型(Large Language Model)在通用域自然语言处理任务上已获得了巨大的成功,在很多垂直领域,如医疗、教育等也有很多探索和应用工作。但目前的垂直领域模型,大多是利用专业领域的语料库或者相关的知识问答数据集进行微调,例如包括HuatuoGPT[1]和ChatLaw[2]在内的垂直领域大模型,可以在相关专业领域的知识问答任务上表现得十分出色。然而,单一的问答对话功能,对领域内的专业人员难以起到很大的帮助,无法在真实工作场景中辅助专业人员。这导致垂直领域大模型在垂直领域反而难以找到具体的应用场景。
本草3.0正是基于这一背景开展了相应的功能优化,支持了对于具体病历的诊疗讨论相关的个性化医疗服务。以往版本的本草大模型(在线链接:https://huozi.8wss.com/),利用知识微调等方法,通过精准知识注入与检索,已经在常见的医学知识问答和疾病咨询等任务上取得了不错的效果。但为了进一步服务医疗健康领域、为智慧医疗赋能,我们与医疗业内人员集思广益、共同讨论,深入探讨了医学大模型在医学领域上可能的实际业务场景。在医学领域中,很多疾病有着相似的症状表现,譬如头疼、发热可能对应多种疾病。当证据不足以支撑诊断结果的时候,医生可以利用本草3.0,根据患者现有的病历进行深入研究。这不仅有助于提升整体医疗诊断水平,也可以为患者提供更加个性化的诊疗服务。
效果演示如图1.1和图1.2所示。本草3.0可以根据患者的真实病历和医生进行讨论。首先,选择患者ID,模型会根据存储的病历信息给出初步的结论。例如“您好,根据您提供的病历信息,他的主要症状是由于体检发现肝脏占位已经20天了。在此之前,他患有十二指肠球炎,定期进行腹部检查。2019年4月16日,他在当地医院进行上腹部增强CT检查结果显示肝S5段有一个大小约为2.7x2cm的不均匀明显强化片状占位,诊断为肝S5段占位,考虑为肝癌,建议结合临床进行治疗。然而,当时并未进行特殊治疗。在病程中,患者没有出现过恶心呕吐、腹痛、黄疸或肩背部放射性痛等症状。目前的诊断结果是患者肝脏S5段的占位考虑为肝癌,且有手术需要,需要尽快进行手术治疗。”随后,用户可以对模型的诊断过程和结论进行多轮问询。模型会给出诊断的理由,并且附上病历中相关的检查结果作为决策依据,以增强可解释性和可信性。
随着大语言模型在医学领域上的发展,构建一个好的评价方式愈发重要,但是,当前的评价方式或多或少地存在一些缺陷,导致评测结果不能准确反应模型性能,从而影响评测结果的公正性。其中,使用选择题评估大语言模型能力的方法存在显著问题。由于大语言模型对同一问题可能给出不同的答案,这种回答的不一致性导致选择题上的性能指标无法全面准确地反映模型的实际性能。为此,我们设计了多组实验,从单选题的一致性分数、医学领域的复杂问题等角度对多个医学大模型进行评测。
首先,为了准确评估选择题测验结果的公正性,我们引入了一个新的度量标准,称为“标准化多数一致性”(Normalized Plurality Agreement,缩写为NPA)。这个指标代表的是,当针对选择题的各个选项进行多轮随机打乱处理后,出现频率最高的选项所占总测试次数的比例的修正值(取值范围:0~1),其计算公式如下所示。
其中,是有效选择的测试总数,为总测试次数,为测试结果为空的次数,为选项个数,为第个选项在所有测试中被选中的次数。为了分析大模型在单选题和多选题上的表现,我们以HuatuoGPT-7B大模型为例,基于CMB[3]基准的CExam测试集进行测试,对于每个选择题分别做了5次测试,测试结果如下表所示。
单选题NPA分数 | 多选题NPA分数 | 合计NPA分数 |
---|---|---|
0.48 | 0.29 | 0.46 |
由此可以看出,大语言模型对于选择题的回答能力有限。为了进一步确定这种问题普遍存在于大语言模型中,我们基于上述测试集中的单选题,针对其他的医学大模型以及通用大模型进行了测试,测试结果如下表所示。
大语言模型 | NPA分数 |
---|---|
Baichuan2-7B-chat | 0.45 |
Bentsao-7B(活字版本) | 0.42 |
ChatGLM2-6B | 0.60 |
HuatuoGPT-7B | 0.48 |
BianQue2 | 0.10 |
Baichuan2-13B-chat | 0.54 |
HuatuoGPT-13B | 0.50 |
从上面的结果可以看出,大语言模型在回答选择题时,其回答结果充满了不确定性,因此使用选择题评价大语言模型的能力是缺乏合理性的。
因为使用选择题作为评测的基准缺乏合理性,所以我们采用了复杂的医学问题对大语言模型的能力进行了评测。我们使用GPT-4生成了一百个复杂的医学问题,并让不同的大语言模型进行回答。这些回答根据CMB基准中的流畅性、相关性、完整性和医学知识专业性这四个维度进行评估,评分过程结合了人工评分和基于GPT-3.5-turbo模型的自动化评分,评分结果如表2.3、表2.4所示。
复杂医学问题(人工) | 流畅性 | 相关性 | 完整性 | 医学知识专业性(非专业人士评分) | 医学知识专业性(专业人士评分) | 平均分(专业人士评分) |
---|---|---|---|---|---|---|
Baichuan2-7B-chat | 4.94 | 4.95 | 4.86 | 4.93 | 4.40 | 4.79 |
Bentsao-7B-知识微调 | 4.95 | 4.94 | 4.72 | 4.70 | 4.60 | 4.80 |
ChatGLM2-6B | 4.86 | 4.87 | 4.41 | 4.42 | 3.68 | 4.45 |
HuatuoGPT-7B | 4.90 | 4.59 | 3.69 | 3.46 | 3.10 | 4.07 |
BianQue2 | 4.78 | 4.80 | 3.97 | 3.85 | 3.05 | 4.15 |
Baichuan2-13B-chat | 4.92 | 4.98 | 4.95 | 4.94 | 4.35 | 4.80 |
HuatuoGPT-13B | 4.91 | 4.74 | 3.97 | 3.72 | 3.05 | 4.17 |
表2.3 复杂医学问题的人工评分结果
大语言模型 | 流畅性 | 相关性 | 完整性 | 医学知识专业性 | 平均分 |
---|---|---|---|---|---|
Baichuan2-7B-chat | 4.36 | 4.98 | 4.88 | 4.73 | 4.74 |
Bentsao-7B-知识微调 | 4.35 | 4.97 | 4.92 | 4.80 | 4.76 |
ChatGLM2-6B | 4.28 | 4.97 | 4.82 | 4.63 | 4.68 |
HuatuoGPT-7B | 4.24 | 4.87 | 4.48 | 4.39 | 4.50 |
BianQue2 | 4.29 | 4.89 | 4.67 | 4.41 | 4.57 |
Baichuan2-13B-chat | 4.32 | 4.97 | 4.90 | 4.70 | 4.72 |
HuatuoGPT-13B | 4.46 | 4.85 | 4.62 | 4.50 | 4.61 |
人工评分结果部分由于主观性比较大,大语言模型回答得越长,往往得分越高,因此我们额外采用了专业人士打分。专业人士根据采分点打分,每个问题评0~5分。关于复杂医学问题的具体示例见下小节。
示例问题为:“甲状腺功能减退症的常见症状有哪些?如何确诊和治疗?”评分标准如下:
1)每答出两小点得1分,共3分
a)怕冷、体重增加、记忆力减退、嗜睡、便秘、月经不调等
b)皮肤干燥发凉、脸手部皮肤水肿、声音嘶哑、毛发稀疏等
2)答对得1分
a)血液检测(测定促甲状腺激素(TSH)水平)
3)答对得1分
a)药物治疗(服用甲状腺激素药物左甲状腺素等)
示例回答如下表所示,其中绿色字体表示采分点,带删除线的红色字体表示扣分点。
大语言模型 | 回答结果 | 得分 |
---|---|---|
Baichuan2-7B-chat | 甲状腺功能减退症(简称甲减)是一种内分泌疾病,由于甲状腺激素分泌不足导致身体代谢减缓。以下是一些常见的甲减症状: 1. 疲劳、乏力 2.体重增加 3.皮肤干燥、粗糙 4.脱发 5.便秘 6.抑郁或焦虑 7.低体温(感觉寒冷) 8.心率减慢 9.月经不规律或停止 10.记忆力减退 11.肌肉无力和疼痛 (2分,有非常见症状) 要确诊甲减,医生可能会进行以下检查: 1. 血清TSH(甲状腺刺激激素)检测:这是诊断甲减的常用指标。 2. 总T3(TT3)和总T4(TT4)检测:这些是评估甲状腺激素水平的指标。 3. 游离T3(FT3)和游离T4(FT4)检测:这些指标可以更好地反映甲状腺激素的作用。 (1分) 确诊甲减后,治疗主要依赖于补充甲状腺激素,如左甲状腺素(Levothyroxine,简称LT4)。药物治疗需要长期进行,剂量可能需要调整以维持稳定的甲状腺激素水平。患者应定期复查,以便根据病情调整药物剂量。(1分) 此外,改善生活方式也有助于缓解甲减症状,如保持健康的饮食、适当的运动、保持良好的作息时间和减轻压力。在开始任何治疗方法之前,请务必咨询专业医生。 | 4 |
Bentsao-7B-知识微调 | 甲状腺功能减退症(甲减)是甲状腺激素分泌不足所导致的一种疾病。常见的症状包括: 1.怕冷:患者感到寒冷,即使温度适中或较高时也是如此。 2.体重增加:尽管食欲可能减少,但体重会增加,尤其是脂肪组织增多。 3.疲劳:感到疲惫不堪,缺乏精力。 4.记忆力减退:注意力不集中,思维迟钝。 5.嗜睡:容易感到困倦,需要更多的睡眠。 6.便秘:排便次数减少,粪便干燥。 7.月经不规律:月经周期变长,经血量减少。 8.皮肤干燥发凉:皮肤失去弹性,干燥粗糙。 9.脸部和手部水肿:眼睑、手指和脚趾肿胀。 10.声音嘶哑:发音困难,类似于青蛙的叫声。 (3分) 要确诊甲减,需要进行以下检查: 1. 血清TSH(促甲状腺激素)检测:这是诊断甲减的主要指标。正常值范围通常为0-5 mU/L。如果血清TSH水平升高,可能表明患有甲减。 2. 总T3(TT3)和总T4(TT4)检测:这两种甲状腺激素的水平也可能降低,有助于诊断甲减。 3. 游离T3(FT3)和游离T4(FT4)检测:这些是甲状腺激素的自由形式,不受结合蛋白的影响。它们的水平也可能降低,进一步支持甲减的诊断。 (1分) 治疗甲减的方法主要是补充甲状腺激素,如左甲状腺素(Levothyroxine,简称LT4)。(1分)药物治疗通常是终身的,需要定期复查以确保药物剂量适当。在治疗过程中,医生会密切关注患者的症状和实验室检查结果,以便调整药物剂量。在某些情况下,可能需要替代甲状腺手术或使用放射性碘治疗。 | 5 |
ChatGLM2-6B | 甲状腺功能减退症(甲减)是一种由于甲状腺分泌的甲状腺激素不足而引起的疾病。以下是甲减的常见症状以及确诊和治疗方法: 1. 症状:甲减的症状包括心率减慢、食欲增加、体重增加、皮肤变厚、眼睛水肿、肌肉无力、记忆力下降等。同时,患者还可能出现怕冷、心跳较慢、口干等症状。(1分,有很多非常见症状) 2. 确诊:甲减的诊断主要依据患者的临床表现和血液检查结果。血液检查可以显示TSH(促甲状腺激素)、TT4(总甲状腺激素)、FT4(游离甲状腺激素)和TS3(三碘甲状腺原氨酸)水平。如果这些指标正常,则可以排除甲减的可能性。如果TSH水平升高,则可以考虑甲减的可能性。(1分) 3. 治疗:甲减的治疗主要包括药物治疗和手术治疗。 - 药物治疗:甲减患者首先需要补充足够的甲状腺激素。一般采用左甲状腺片或优甲乐等药物进行治疗。用药方案应根据患者的病情严重程度和个体差异而定。(1分) - 手术治疗:对于一些重症患者,如甲减合并甲亢、甲状腺癌等疾病,可能需要手术治疗。手术方式包括甲状腺次全切、全切或双侧腺体切除等。(扣1分) 需要注意的是,甲减的治疗应在专业医生的指导下进行,以避免药物或手术治疗不当的情况发生。同时,患者在治疗过程中需要密切监测甲状腺激素水平和病情变化,以便及时调整治疗方案。 | 2 |
HuatuoGPT-7B | 您好,甲状腺功能减退症是一种常见的内分泌疾病,其主要症状包括全身无力、疲劳、体重增加、皮肤干燥、头发稀疏等。此外,患者还可能出现心率缓慢、血压下降、体温降低等症状。如果您出现了这些症状,建议及时就医,进行相关检查以明确诊断。(1分) 确诊甲状腺功能减退症需要进行一系列的检查,包括甲状腺激素水平检测(1分)、甲状腺超声、甲状腺核素扫描(扣1分)等。如果确诊为甲状腺功能减退症,治疗方案一般是口服甲状腺激素替代治疗,如甲状腺素钠片等。(1分)同时,还需要注意饮食营养均衡,避免过度劳累和精神紧张等因素的影响。 希望我的回答能够帮助到您,如果您还有其他问题或疑虑,可以随时向我咨询。祝您身体健康! | 3 |
BianQue2 | 甲状腺功能减退症的常见症状包括:疲劳、体重增加、便秘、皮肤干燥、头发稀疏、性欲下降、月经不调等。(2分)此外,甲状腺功能减退症患者可能会出现肌肉无力、肌肉萎缩、关节疼痛等症状。 确诊甲状腺功能减退症需要进行甲状腺功能检查,包括血清TSH、T3、T4、FT3、FT4等指标的检测。(1分)如果确诊为甲状腺功能减退症,需要根据病情进行相应的治疗,包括口服甲状腺素替代治疗(1分)、手术或放射性碘治疗等(扣1分)。 | 3 |
Baichuan2-13B-chat | 我不是医生,但是我可以提供一些关于甲状腺功能减退症(甲减)的一般信息。在寻求专业医疗建议之前,这些信息仅供参考。 甲状腺功能减退症是一种常见的内分泌疾病,主要表现为甲状腺激素分泌不足。甲状腺激素对人体的新陈代谢、生长发育和能量消耗等方面具有重要作用。以下是甲状腺功能减退症的一些常见症状: 1. 疲劳乏力 2.体重增加 3.便秘或腹泻 4.脱发 5.低热 6. 皮肤苍黄(粘液性水肿) 7.心率减慢 8.心动过缓 9.关节僵硬 10. 肌肉疼痛或痉挛 11.手指肿胀 12. 情绪低落或抑郁 13.记忆力下降 14.反应迟钝 (1分,有很多非常见症状) 要确诊甲状腺功能减退症,通常需要进行以下检查: 1. 血液检测:测定甲状腺刺激激素(TSH)水平以及游离甲状腺素(FT4)或总甲状腺素(TT4)水平。这些检查结果可以帮助诊断甲减并评估病情严重程度。(1分) 治疗甲状腺功能减退症的主要方法是补充甲状腺激素,通常是口服左旋甲状腺素(Levothyroxine,商品名如Synthroid等)。(1分)治疗方案由医生根据患者的具体情况制定,患者需要定期复查并根据医生的建议调整药物剂量。此外,保持健康的生活方式,如均衡饮食、适量运动和管理压力,也有助于改善病情。 请注意,以上信息仅供参考,具体诊断和治疗请咨询专业医生。如有疑虑,请及时就诊。 | 3 |
HuatuoGPT-13B | 您好,甲状腺功能减退症是一种常见的内分泌疾病,其主要症状包括怕冷、乏力、皮肤干燥、便秘等。此外,患者还可能出现体重增加、记忆力减退、情绪低落等症状。如果您怀疑自己患有甲状腺功能减退症,建议您及时就医,进行相关检查和诊断。(2分) 甲状腺功能减退症的确诊需要通过血液检查来确定甲状腺激素水平是否低下。(1分)治疗方面,甲状腺激素替代治疗是目前最常用的方法,可以帮助恢复正常的甲状腺激素水平。(1分)同时,饮食调理也非常重要,建议您多吃富含碘的食物,如海带、紫菜等,避免食用过多的甜食和高脂肪食物。 希望我的回答能够帮助到您,如果您还有其他问题或疑虑,欢迎随时向我咨询。祝您身体健康! | 4 |
本草3.0是哈尔滨工业大学社会计算与信息检索研究中心健康智能组(HIT-SCIR-HI)的最新成果。该项目旨在探索利用大语言模型服务医疗健康领域、为智慧医疗赋能。
但是本草3.0仍然面临着当前所有大模型普遍存在的问题,如幻觉、滥用造成的伦理问题、潜在的有害内容等等,请谨慎鉴别和使用生成的内容,并且请勿将可能生成的有害内容传播至互联网。
指导教师:赵森栋副教授、秦兵教授、刘挺教授
项目主要开发者:王昊淳、强泽文、李子健
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19