我要投稿

刚刚，OpenAI开源SimpleQA！轻松检测、校准大模型能力

发布日期：2024-10-31 08:07:08 浏览次数： 3086

作者：AIGC开放社区

微信搜一搜，关注“AIGC开放社区”

今天凌晨，OpenAI开源了最新基准测试集SimpleQA，可以帮助开发者轻松检测、校准大模型的真实性能力。

目前，很多大模型会出现一本正经胡说八道的问题，例如，你提问NBA历史上得分最多的是谁，它回答是迈克尔乔丹，实际上是勒布朗詹姆斯。包括OpenAI自己发布的GPT-4o、o1-preview、o1mini等前沿模型都有这些“幻觉”难题。

所以，SimpleQA对于开发者来说，可以精准测试大模型能否输出正确的答案，并对模型的说谎能力进行校准然后进行大幅度优化完善模型能力。

开源地址：https://github.com/openai/simple-evals

有网友表示，看了SimpleQA的测试数据才发现，o1-mini和o1-preview的性能差距这么大，o1-mini连GPT-4o都打不过。

令人惊讶的是，SimpleQA 被有意设计用来挑战像 GPT-4 这样的高级模型，其中只包括至少有一次模型尝试失败的问题。这种对抗性的基准测试方法感觉像是一种大胆的转变，旨在揭示模型的局限性并推动模型的发展。

多整开源这是好事。别忘了你名字的初衷啊~

这很有趣，会看到更多的模型被测试，以及它们与我在提供的文本上进行的虚构/幻觉基准测试结果的比较。

很想看看o1模型的完整版测试。

完全同意事实性在人工智能中的重要性。SimpleQA 的引入可以显著提升我们对语言模型在这一领域表现的理解。这是一项及时的举措，准确的数据对于信任人工智能系统至关重要。期待看到这个基准测试的影响。

这很重要，因为确保大模型的事实性对于防止错误信息的传播至关重要，而 SimpleQA 提供了一种标准化的方法来评估和改进模型可靠性的这一关键方面。

很棒，重要的更新！

SimpleQA简单介绍

在数据收集阶段，SimpleQA的问题参考答案由两名独立的 AI 训练员确定，并且训练员在创建问题时被要求提供支持答案的网页链接，以确保答案有可靠的依据。

例如，对于 “谁是苹果公司的创始人之一” 这样常识性问题，训练员会根据历史资料和官方信息确定答案为史蒂夫乔布斯等，并附上如苹果公司官方网站等相关链接作为证据。

同时，问题的设计使得预测答案易于评估，只允许有一个明确且无可争议的答案，避免了模糊性和歧义性。比如 “哪一年 iPhone 首次发布”，答案明确为“2007 年”，而不是一个范围或模糊的表述。

SimpleQA的评估问题和答案都非常简短，这使得运行速度快且操作简单。在评估模型回答时，通过 OpenAI API进行评分也十分迅速。数据集中包含4326个问题，能够在一定程度上降低不同次运行之间的方差，使评估结果更加稳定可靠。

例如，在对多个模型进行测试时，不会因为数据集本身的不稳定性而导致结果出现较大波动，从而能够更准确地比较模型之间的性能差异。

SimpleQA的评估集非常多元化。涵盖历史、科学技术、艺术、地理、电视节目等多个领域。这种多样性使得评估结果更具普遍性和代表性，能够全面地检验模型在不同知识领域的事实性回答能力。

另一个好处是它的校准测量功能。通过询问模型对其答案的信心，研究者可以了解模型是否知道它们知道什么，这是一个很重要的校准现象。如果一个模型能够准确地评估自己的信心水平，那么它就是一个校准良好的模型。

OpenAI通过SimpleQA对GPT-4o、o1-preview、o1mini、Claude-3-haiku、Claude-3-sonnet等前沿模型进行了综合测试。结果显示，较大模型通常具有更高的性能，但即使是前沿模型在SimpleQA 上的表现也并非完美。

例如，GPT - 4o 在回答一些问题时能够给出较高比例的正确答案，但仍有部分错误回答和未尝试回答的情况。同时，通过测量模型的校准情况，发现模型虽然有一定的信心概念，但普遍存在高估自己信心的问题，模型的信心水平与实际回答的准确性之间存在差距。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-31

全网疯传fork！刚刚，Claude Code源代码泄露被开源了

2026-03-31

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

开源 Claude Code 工程级开发插件 Superpowers 完整上手攻略

2026-03-31

CoPaw深度解析：源码架构和功能实践

2026-03-30

企业微信正式开源CLI ，AI可调用7大能力

2026-03-30

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-27

阿里巴巴团队开源，OCR 又来一个高手，第一！

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

重磅开源！Kimi K2.5 本地部署全攻略：手把手教你跑通 1T MoE 巨兽

2026-01-30

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

SkillsMP：一个聚合了 5 万+ AI Agent 技能的开源社区

2026-01-12

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

实测Kimi K2.5，这是一款厌丑的开源模型

2026-01-27

OpenWork：Claude Cowork 的开源替代品

2026-01-21

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

Claude Code最强开源对手！GitHub 50.2k Star了，作者为它烧掉2.4w美元。

2026-01-06

为什么你一定要用OpenCode

2026-01-23

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

大家都在问

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

你的 AI Agent 真的在受控运行吗？

2026-03-13

137K 行代码、零 clippy 警告：这个开源项目凭什么让 AI Agent 领域炸锅？

2026-03-02

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

一夜爆火，Clawdbot是否才是真正的AI入口产品？

2026-01-28

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

速递 | DeepSeek突然扔出MODEL1，这到底是V4还是R2？

2026-01-21

DeepSeek-R2要来了？

2026-01-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw