AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


OpenAI的医疗诊断准确率远超人类医生,准确率高达88.6%
发布日期:2024-12-27 08:14:28 浏览次数: 1542 来源:AI每日资讯


新研究表明,OpenAI的o1-preview人工智能系统在诊断棘手病例方面可能比人类医生表现更好。

哈佛医学院和斯坦福大学的研究团队对o1-preview进行了一系列全面的医疗诊断测试。他们的研究结果显示,与之前的版本相比,该AI系统取得了显著进步。

根据研究,o1-preview正确诊断了78.3%的所有检查病例。在70个特定病例的直接对比中,该系统表现更好,准确诊断率达到88.6% - 明显优于其前身GPT-4的72.9%。

在医疗推理方面,o1-preview的表现更加突出。使用R-IDEA量表(一种评估医疗推理质量的标准测量方法)时,AI系统在80个病例中的78个获得了满分。相比之下,经验丰富的医生仅在28个病例中获得满分,而住院医生仅在16个病例中获得满分。

研究人员承认一些测试病例可能包含在o1-preview的训练数据中。但是,当他们用系统从未遇到过的新病例进行测试时,其性能仅略有下降。


比人类医生更擅长处理复杂病例

在处理25位专家特别设计的复杂病例时,AI系统表现尤为出色。Rodman解释说:"人类理所当然地感到困难。但o1的表现 - 你不需要统计数据就能看出它表现得有多好。"

在这些棘手的病例中,o1-preview获得了86%的可能得分。这是医生使用GPT-4(41%)或传统工具(34%)所获得分数的两倍多。

不过,该系统并非完美。它在概率评估方面表现欠佳,与旧模型相比没有真正的改进。例如,在估计肺炎的可能性时,o1-preview建议为70% - 远高于25-42%的科学范围。

研究人员发现了一个规律:虽然该系统在需要批判性思维的任务(如诊断和推荐治疗)方面表现出色,但在更抽象的挑战(如估计概率)方面存在困难。

他们还指出,o1-preview倾向于给出详细的答案,这可能提高了其得分。此外,研究仅关注o1-preview单独工作的情况 - 而不是它与人类医生合作时的表现如何。

此后,OpenAI发布了完整的o1版本及其继任者o3,这些版本在复杂推理任务上显示出显著改进的性能 - 在需要深度分析思维的基准测试中远超o1-preview的能力。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询