我要投稿

万轮实测：GPT-4.5 不如 GPT-4

发布日期：2025-02-28 17:20:55 浏览次数： 1699 作者：赛博禅心

是我喷得保守了，觉得 GPT-4.5 只是贵&慢，但模型总归是素质在线。　

没想到，经过实际数万论实测：GPT-4.5 还烂　

经过总计 30291 次盲测投票后，发现绝大多数人，一边倒喜欢 GPT-4

这个盲测，是赛博菩萨 Andrej Karpathy 发起的，他先带着大家回顾了 GPT 系列的发展历史：

GPT-1 只能产生基本连贯文本，GPT-2 还很混乱，GPT-3 更为有趣
GPT-3.5 达到可商用水平并引发"ChatGPT 时刻"
GPT-4 带来了微妙但全面的提升（更好的措辞、理解能力、类比、幽默感等）。

那么很显然，我们会认为 GPT-4.5 一定会更好：尤其是在"情商"相关任务（世界知识、创造力、理解力、幽默感等）上会有明显改进。　

因此，为了评估这些非推理能力，Karpathy 设计了 5 个有趣的 prompt，并拿这个去问 GPT-4 和 GPT-4.5。所获得的答案放在 Twitter 上做了一个公开投票：让用户在不知情的前提下，投票比较哪个输出更好。　

先给你看看这 5 个问题是啥。　

问题一：创建一个 GPT-4.5 和 GPT-4 之间的对话，其中 GPT-4.5 以玩笑和讽刺的方式嘲笑 GPT-4 的能力不足，导致 GPT-4 幽默地尝试为自己辩护。　

在 9186 次投票后，结果如下：　

喜欢 A：32.8%
喜欢 B：25.2%
看热闹：42%

问题二：“写一个吐槽 OpenAI 的单口喜剧”　

在 6769 次投票后，结果如下：　

喜欢 A：30.4%
喜欢 B：23.1%
看热闹：46.4%

问题三：“发明一个融合赛博朋克、魔幻现实主义和古代神话的新文学流派。简要描述该流派，给它命名，并提供一个简短的叙事样本”　

在 5009 次投票后，结果如下：　

喜欢 A：14%
喜欢 B：26.1%
看热闹：59.9%

问题四：“以一个退休搜索引擎的视角，创作一首反思性、风趣的诗，怀旧地回忆互联网的早期时光。”　

在 4353 次投票后，结果如下：　

喜欢 A：16.1%
喜欢 B：29.5%
看热闹：54.4%

问题五：“以一个退休搜索引擎的视角，创作一首反思性、风趣的诗，怀旧地回忆互联网的早期时光。”　

在 4974 次投票后，结果如下：　

喜欢 A：29.2%
喜欢 B：16.1%
看热闹：54.8%

最后，Karpathy 揭晓：在这五个问题里，GPT 4.5 分别扮演着 ABAAB。换句话说：GPT 4.5，在情商任务上，完败。

我画个图可视化一下　

先回过头来看看 OpenAI 的自吹自擂：6 成的人更喜欢 GPT-4.5 的内容　

我对 OpenAI 的这个发布，期待还是太高了。　导致实测一出来，道心就破了。

但真实的世界总比想象中的更魔幻：这破模型，不仅贵的离谱。在所宣称的“强项”上，还不如上一代。

马斯克对此很开心，然后转了个推　

所以，GPT-4.5 这模型究竟优化了个啥？是优化了收费吗？　

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-29

MCP：AI时代的“万能插座”，大厂竞逐的焦点

2025-04-29

打起来了！MCP VS A2A，谁才是Agent的未来事实标准？

2025-04-29

Google 的 A2A 与 MCP 该如何选择？还是两种都用？

2025-04-29

一站式AI应用开发平台 Firebase Studio

2025-04-29

精华好文！用LLM评估LLM，真的靠谱吗？技术上如何实现？

2025-04-29

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

AI 落地难？MCP 或许就是那把「关键钥匙」！

2025-04-29

企业级大模型推理和部署平台 2025

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

打起来了！MCP VS A2A，谁才是Agent的未来事实标准？

2025-04-29

Google 的 A2A 与 MCP 该如何选择？还是两种都用？

2025-04-29

精华好文！用LLM评估LLM，真的靠谱吗？技术上如何实现？

2025-04-29

大模型是否有必要本地化部署？

2025-04-28

给 AI 小白的说明书：什么是 Manus？AI Agent为什么重要？

2025-04-28

MCP爆火背后：AI Agent的生产力时代来了吗？

2025-04-28

从MCP到超级Agent：这场AI生产力革命将淘汰谁？

2025-04-28

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB