微信扫码
添加专属顾问
我要投稿
GPT-4.5 实测不如 GPT-4,万轮盲测揭示真相。核心内容:1. GPT-4.5 被认为在情商任务上会有所提升2. 赛博菩萨 Andrej Karpathy 设计的 5 个有趣 prompt 实测3. 30291 次盲测投票结果对比 GPT-4 和 GPT-4.5
我先给大家道个歉,上一篇讲的不太对:《GPT-4.5 一手实测:垃圾》
是我喷得保守了,觉得 GPT-4.5 只是贵&慢,但模型总归是素质在线。
没想到,经过实际数万论实测:GPT-4.5 还烂
经过总计 30291 次盲测投票后,发现绝大多数人,一边倒喜欢 GPT-4
这个盲测,是赛博菩萨 Andrej Karpathy 发起的,他先带着大家回顾了 GPT 系列的发展历史:
GPT-1 只能产生基本连贯文本,GPT-2 还很混乱,GPT-3 更为有趣
GPT-3.5 达到可商用水平并引发"ChatGPT 时刻"
GPT-4 带来了微妙但全面的提升(更好的措辞、理解能力、类比、幽默感等)。
那么很显然,我们会认为 GPT-4.5 一定会更好:尤其是在"情商"相关任务(世界知识、创造力、理解力、幽默感等)上会有明显改进。
因此,为了评估这些非推理能力,Karpathy 设计了 5 个有趣的 prompt,并拿这个去问 GPT-4 和 GPT-4.5。所获得的答案放在 Twitter 上做了一个公开投票:让用户在不知情的前提下,投票比较哪个输出更好。
先给你看看这 5 个问题是啥。
问题一:创建一个 GPT-4.5 和 GPT-4 之间的对话,其中 GPT-4.5 以玩笑和讽刺的方式嘲笑 GPT-4 的能力不足,导致 GPT-4 幽默地尝试为自己辩护。
在 9186 次投票后,结果如下:
问题二:“写一个吐槽 OpenAI 的单口喜剧”
在 6769 次投票后,结果如下:
问题三:“发明一个融合赛博朋克、魔幻现实主义和古代神话的新文学流派。简要描述该流派,给它命名,并提供一个简短的叙事样本”
在 5009 次投票后,结果如下:
问题四:“以一个退休搜索引擎的视角,创作一首反思性、风趣的诗,怀旧地回忆互联网的早期时光。”
在 4353 次投票后,结果如下:
问题五:“以一个退休搜索引擎的视角,创作一首反思性、风趣的诗,怀旧地回忆互联网的早期时光。”
在 4974 次投票后,结果如下:
最后,Karpathy 揭晓:在这五个问题里,GPT 4.5 分别扮演着 ABAAB。换句话说:GPT 4.5,在情商任务上,完败。
我画个图可视化一下
先回过头来看看 OpenAI 的自吹自擂:6 成的人更喜欢 GPT-4.5 的内容
我对 OpenAI 的这个发布,期待还是太高了。 导致实测一出来,道心就破了。
但真实的世界总比想象中的更魔幻:这破模型,不仅贵的离谱。在所宣称的“强项”上,还不如上一代。
马斯克对此很开心,然后转了个推
所以,GPT-4.5 这模型究竟优化了个啥?是优化了收费吗?
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-28
大模型时代的内容分析Agent解决方案与业务实践
2025-02-28
OpenAI GPT-4.5: 无聊又穷凶极恶
2025-02-28
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
2025-02-28
盘点那些免费好用支持 DeepSeek-R1 满血版的平台
2025-02-28
【AI洞察】Kimi 1.5技术报告全解析:长链推理、短链优化与多模态融合的创新实践
2025-02-28
GPT4.5发布,价格是DeepSeek的280倍,他们是真没活了。
2025-02-28
深夜重磅!OpenAI 放大招:GPT-4.5正式上线!但价格贵到肉疼…
2025-02-28
DeepSeek这么火,国资央企做了啥……
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-05-28
2024-07-31
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-02-28
2025-02-26
2025-02-25
2025-02-24
2025-02-23
2025-02-22
2025-02-22
2025-02-22