我要投稿

OpenAI 重磅发布 GPT4.5，更像人了！Karpathy一手评测：有惊喜但提升微妙

发布日期：2025-02-28 07:00:33 浏览次数： 1945 作者：AI寒武纪

北京时间凌晨4点钟OpenAI举行一个14分钟左右的直播发布，GPT4.5 终于发布了！凌晨4点爬起来第一时间给大家更新，?

废话不多说，先看看Sam Altman的对GPT 4.5的感受：

Sam：

GPT-4.5 准备好了！

好消息： 它是我遇到的第一个感觉像是在和一位有思想的人交谈的模型。我有好几次都向后靠在椅子上，惊讶于竟然能从人工智能那里得到真正的好建议

坏消息： 这是一个庞大且昂贵的模型。我们真的想同时向 Plus 和 Pro 用户推出它，但我们的用户增长非常迅速，以至于 GPU 不够用了。我们将在下周增加数万个 GPU，然后向 Plus 用户层推出它。（数十万个即将到来，而且我确信你们会用完我们能部署的每一个。）

这不是我们希望的运营方式，但很难完美预测导致 GPU 短缺的增长激增。

温馨提示：这并非一个推理模型，也不会在基准测试中表现突出。这是一种不同类型的智能，并且它有一种我以前从未感受过的魔力。真的非常激动能让大家试试它！

是不是觉得泛善可陈？下面我们来看看GPT4.5长什么样子（发布会视频附在文章最后）：

发布会一开始上，OpenAI先展示了一个例子。当用户表达 “朋友又取消了我的约会，我太生气了，想发消息骂他” 这种负面情绪时， GPT-4.5 展现出了惊人的理解能力和情商：

• 老模型 (o1) 的回复： 直接按照指令输出了愤怒的骂人短信，虽然完成了任务，但显得冷冰冰，甚至有点 “火上浇油”。
• GPT-4.5 的回复： 它不仅给出了更温和、更建设性的短信建议，还 “听” 出了用户言语背后的 真实需求 —— TA 可能只是需要倾诉和安慰，而不是真的想和朋友闹翻！

这种细微的情感理解和微妙回应，正是 GPT-4.5 的亮点之一！它不再是冷冰冰的机器，能够更好地理解我们的 真实意图和情感需求。

知识更渊博，能力更全面

除了情商升级， GPT-4.5 的知识储备和能力也得到了显著提升。发布会上OpenAI对比了 GPT 系列模型回答 “为什么海洋是咸的” 这个问题：

更强，更快，更安全

按照OpenAI的说法这些进步背后，是 GPT-4.5 在技术上的全面升级：

性能表现

发布会上OpenAI 还展示了 GPT-4.5 在各种 benchmark 上表现：

GBQA (推理密集型科学评估): 大幅提升！虽然还落后于 OpenAI-03 Mini (可以思考后再回答的模型)，但已经非常接近！

AIME24 (美国高中竞赛数学评估): 相对推理模型提升不多

SWE Bench verified (Agentic 编码评估): 相比GPT4o仅仅提升7%

SWE Lancer (更依赖世界知识的 Agentic 编码评估): 超越 OpenAI-03 Mini！

Multilingual MMLU (多语言语言理解基准): 提升不到4%

Multimodal MMLU (多模态理解): 多模态能力提升5%左右

相信大家和我一样，对 GPT 的每一次迭代都充满了期待。这次的 GPT-4.5 更是吊足了大家的胃口，毕竟距离 GPT-4 发布已经过去大约两年了！AI 大神OpenAI联合创始人提前拿到了GPT4.5 的内测资格， Andrej Karpathy 亲自发声，对 GPT-4.5 进行了深度解读

Karpathy 在他的推文中开门见山地指出，他期待 GPT-4.5 已经很久了，原因在于这次升级提供了一个定性衡量指标，可以观察到通过扩大预训练算力（简单来说就是训练更大的模型）所带来的性能提升斜率

他透露了一个关键信息：GPT 版本号每增加 0.5，大致意味着预训练算力提升了 10 倍！

为了让大家更直观地理解这个 "0.5" 的意义，Karpathy 还回顾了 GPT 系列的发展历程：

• GPT-1: 几乎无法生成连贯的文本，还在非常早期的阶段
• GPT-2: 像一个“玩具”，能力有限，还比较混乱
• GPT-2.5: 直接“跳过”了，OpenAI 直接发布了 GPT-3，这是一个更令人兴奋的飞跃
• GPT-3.5: 跨越了一个重要的门槛，终于达到了可以作为产品发布的水平，并由此引爆了 OpenAI 的 “ChatGPT 时刻”！?
• GPT-4: 感觉确实更好，但 Karpathy 也坦言，提升是微妙的。他回忆起参与黑客马拉松的经历，大家尝试寻找 GPT-4 明显优于 GPT-3.5 的具体 prompt，结果发现虽然差异存在，但很难找到那种 “一锤定音” 的例子