我要投稿

OpenAI的医疗诊断准确率远超人类医生，准确率高达88.6%

发布日期：2024-12-27 08:14:28 浏览次数： 2397 作者：AI每日资讯

新研究表明，OpenAI的o1-preview人工智能系统在诊断棘手病例方面可能比人类医生表现更好。

哈佛医学院和斯坦福大学的研究团队对o1-preview进行了一系列全面的医疗诊断测试。他们的研究结果显示，与之前的版本相比，该AI系统取得了显著进步。

根据研究，o1-preview正确诊断了78.3%的所有检查病例。在70个特定病例的直接对比中，该系统表现更好，准确诊断率达到88.6% - 明显优于其前身GPT-4的72.9%。

在医疗推理方面，o1-preview的表现更加突出。使用R-IDEA量表（一种评估医疗推理质量的标准测量方法）时，AI系统在80个病例中的78个获得了满分。相比之下，经验丰富的医生仅在28个病例中获得满分，而住院医生仅在16个病例中获得满分。

研究人员承认一些测试病例可能包含在o1-preview的训练数据中。但是，当他们用系统从未遇到过的新病例进行测试时，其性能仅略有下降。

比人类医生更擅长处理复杂病例

在处理25位专家特别设计的复杂病例时，AI系统表现尤为出色。Rodman解释说："人类理所当然地感到困难。但o1的表现 - 你不需要统计数据就能看出它表现得有多好。"

在这些棘手的病例中，o1-preview获得了86%的可能得分。这是医生使用GPT-4（41%）或传统工具（34%）所获得分数的两倍多。

不过，该系统并非完美。它在概率评估方面表现欠佳，与旧模型相比没有真正的改进。例如，在估计肺炎的可能性时，o1-preview建议为70% - 远高于25-42%的科学范围。

研究人员发现了一个规律：虽然该系统在需要批判性思维的任务（如诊断和推荐治疗）方面表现出色，但在更抽象的挑战（如估计概率）方面存在困难。

他们还指出，o1-preview倾向于给出详细的答案，这可能提高了其得分。此外，研究仅关注o1-preview单独工作的情况 - 而不是它与人类医生合作时的表现如何。

此后，OpenAI发布了完整的o1版本及其继任者o3，这些版本在复杂推理任务上显示出显著改进的性能 - 在需要深度分析思维的基准测试中远超o1-preview的能力。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-27

互联网老兵杀入AI医疗：傲慢还是坚持？

2025-04-21

医疗大模型，集体下沉

2025-04-14

Agent-RAG + GraphRAG 双框架，让个性化治疗方案准确率高达 100%

2025-04-13

AI医疗独角兽Abridge创始人访谈：企业级AI应用不存在简单「套壳」

2025-03-25

AI误诊，上海患者获赔127万？聊聊模型幻觉与信任危机

2025-03-25

DeepSeek医疗多场景应用分析：基于420余家医院的实证研究

2025-03-22

不能落地的AI，还不如吹牛

2025-03-21

2025年关于医疗+AI的最新思考（4）：确定性的机会

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

【LLM-综述】大语言模型在金融、医疗卫生和法律等关键社会领域的应用综述

2024-06-21

大模型和生成式AI在医疗行业的落地应用｜非凡观点

2024-05-02

AI健康管理

2024-07-03

请勿用于非法用途！切除Qwen安全审查记录！给LLM动手术！生成任何想要的内容！适用所有大模型！

2024-06-21

2024-05-23

2024-04-24

2024-04-27

2024-07-01

2024-06-17

2024-06-02

大家都在问

互联网老兵杀入AI医疗：傲慢还是坚持？

2025-04-27

2025年关于医疗+AI的最新思考（3）看研究报告去创业？

2025-03-21

2025年关于医疗+AI的最新思考（6）对医生最最重要的那件事，已经发生了？

2025-03-21

上半年拿到投资的 18 家 AI 制药，他们都在做什么？

2025-02-18

为什么使用AI诊断癌症如此困难？

2025-01-23

AI+互联网医疗落地，京东健康即将走进春天？

2025-01-17

领跑AI医疗，医疗大模型第一股的方法论是什么？

2025-01-06

前谷歌CEOEric Schmidt在斯坦福说的话，对医疗AI创业者有哪些启发？

2024-08-27

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB