微信扫码
与创始人交个朋友
我要投稿
新研究表明,OpenAI的o1-preview人工智能系统在诊断棘手病例方面可能比人类医生表现更好。
哈佛医学院和斯坦福大学的研究团队对o1-preview进行了一系列全面的医疗诊断测试。他们的研究结果显示,与之前的版本相比,该AI系统取得了显著进步。
根据研究,o1-preview正确诊断了78.3%的所有检查病例。在70个特定病例的直接对比中,该系统表现更好,准确诊断率达到88.6% - 明显优于其前身GPT-4的72.9%。
在医疗推理方面,o1-preview的表现更加突出。使用R-IDEA量表(一种评估医疗推理质量的标准测量方法)时,AI系统在80个病例中的78个获得了满分。相比之下,经验丰富的医生仅在28个病例中获得满分,而住院医生仅在16个病例中获得满分。
研究人员承认一些测试病例可能包含在o1-preview的训练数据中。但是,当他们用系统从未遇到过的新病例进行测试时,其性能仅略有下降。
比人类医生更擅长处理复杂病例
在处理25位专家特别设计的复杂病例时,AI系统表现尤为出色。Rodman解释说:"人类理所当然地感到困难。但o1的表现 - 你不需要统计数据就能看出它表现得有多好。"
在这些棘手的病例中,o1-preview获得了86%的可能得分。这是医生使用GPT-4(41%)或传统工具(34%)所获得分数的两倍多。
不过,该系统并非完美。它在概率评估方面表现欠佳,与旧模型相比没有真正的改进。例如,在估计肺炎的可能性时,o1-preview建议为70% - 远高于25-42%的科学范围。
研究人员发现了一个规律:虽然该系统在需要批判性思维的任务(如诊断和推荐治疗)方面表现出色,但在更抽象的挑战(如估计概率)方面存在困难。
他们还指出,o1-preview倾向于给出详细的答案,这可能提高了其得分。此外,研究仅关注o1-preview单独工作的情况 - 而不是它与人类医生合作时的表现如何。
此后,OpenAI发布了完整的o1版本及其继任者o3,这些版本在复杂推理任务上显示出显著改进的性能 - 在需要深度分析思维的基准测试中远超o1-preview的能力。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-26
AI+医疗:开启医疗服务的“工业化”时代
2024-12-26
Z Product|Freed AI,AI病历助手,创立1年多,1万付费医生,1000万美金ARR
2024-12-17
AI病理助手来了!浙大OmniPT上岗,3秒锁定癌症病灶,准确率超95%
2024-12-17
Radiology-Llama2: 医疗大模型再突破!超越GPT-4的放射科专用大语言模型重磅发布
2024-12-16
Abridge:AI Scribe 成为 AI 医疗应用的最佳实践
2024-12-16
医疗大模型的未来之路
2024-12-15
HuatuoGPT:一个突破性的中文医疗大模型,让AI成为你的私人医生!
2024-12-06
AI大模型在临床和医学写作中的应用与局限性:一个双刃剑的深度解析
2024-05-02
2024-06-21
2024-07-01
2024-07-03
2024-04-24
2024-04-27
2024-06-21
2024-05-23
2024-07-03
2024-06-02