我要投稿

实测OpenAI最新GPT4.5模型，情商最强纯属夸张

发布日期：2025-02-28 18:32:59 浏览次数： 2085 作者：快刀青衣

如果你平时看一些商业书籍，或者上过商学院的课程，应该经常听到一个词——“鲶鱼效应”。说起来，这个词的故事源自北欧或者日本，有些渔民为了让沙丁鱼或者其他小鱼在长途运输中保持活力，会在鱼群里放一条鲶鱼。鲶鱼特别活泼好动，总是追着其他小鱼跑。小鱼们为了避免被鲶鱼吃掉，就必须不停游动，这样就能保持体力和活力，最后存活率也提高了。

虽然这个故事的真实性常被质疑，很多人认为它只是商业管理的寓言，但确实有学者对“外部竞争者刺激”这个话题进行了深入研究。早在1965年，美国心理学家罗伯特·扎荣茨就提出，当个体在他人或竞争对手的紧盯下执行任务时，表现往往会有所提升。

在AI的世界里，来自杭州的DeepSeek无疑是最近两个月的“鲶鱼”。而且他们的LOGO刚好也是一条鲸鱼，所以不妨说，这条鲸鱼般大小的鲶鱼，已经让很多AI 传统老玩家慌不择路了。

为什么这么说呢？

因为OpenAI就在2月28号匆匆发布了GPT4.5模型。奇怪的是，发布会上CEO山姆·奥尔特曼都没出现，而是在医院陪早产的孩子。大家理解，从人情上讲，当然是孩子更重要，但换个角度想，如果这次GPT4.5的发布会真的很关键，山姆完全可以推迟几天再办，而不是在社交媒体上发几个帖子应付过去。

GPT4.5到底怎么样？

发布会一结束，我赶紧去看了下自己的账户，果然已经有了这个模型。

山姆·奥尔特曼在X（也就是以前的推特）上说：“GPT4.5让我第一次感觉自己真的是在跟一个体贴的真人对话，几次我坐在那里，竟然惊讶地发现从AI那里得到了很好的建议。不过坏消息是，GPT4.5是个巨大而昂贵的模型，我们的GPU已经用完了，下周我们将增添数万个GPU。不过大家注意，这不是一个推理模型，所以并没有打破基准测试。”

说了这么多，其实他想表达的就是，这个模型大、贵，情商高，但别拿它来做跑分测试。

接下来，我就从这几个特性上，用最简单直白的话，跟大家说说。

首先，模型的参数量非常大。

虽然官方现在没有透露具体的数字，但就拿前一个版本GPT4来说，它的训练数据量已经超过了万亿级别，而GPT3.5版本只有1750亿。像OpenAI这样的AI大公司都出现GPU告急的情况，也能看出这个提升有多大。不过，单纯增加参数量，并不能带来能力的飞跃。这其实挺好理解的，就像一个学渣刷题，能从60分飙到90分，但从90分到95分，再往上提升，就不仅仅是刷题那么简单了，更多的是考验底层的逻辑思维能力，光靠刷题是很难突破的。

第二个特点就是超级贵。

这个贵，首先是因为OpenAI的成本很高，刚才说到GPU告急，所以他们现在优先提供给每个月200美元的Pro用户使用，等下周GPU增加后，才会让每个月20美元的Plus订阅会员用上。

至于这个模型的API价格，那才真是贵得惊人——每百万词节的输出就要150美元，差不多1000元人民币。这是什么概念呢？

DeepSeek最强大的V3和R1模型，每百万词节的输出才0.55美元，也就是大约3.85元人民币。也就是说，OpenAI这个新模型的价格是DeepSeek的273倍。

我个人感觉，这种离谱定价，并不是OpenAI觉得自己模型有多强，而更像一些商店，老板不舍得卖的东西摆出来，用个天价标价，营造一种“仅供观赏，勿摸”的效果。

第三个特点是情商特别高。

OpenAI官方把这个模型称为“原生更智慧的模型”，主要是和他们自己其他几个模型做对比。的确，在简单问题的回答准确率上，GPT4.5表现得比其他模型要强，而在简单问题的幻觉率上，它也是最低的。比如在简单问题的回答准确率上，GPT4.5是62.5，而GPT4o只有38.6，推理模型o1也只有47。至于大家常吐槽的AI幻觉，GPT4.5的幻觉率只有37.1，而GPT4o高达61，o1版本也有44。只从这些图上看，GPT4.5的确是很“能打”。

跑分图背后不想让我们知道的东西

不过，得说个“但是”。上周我跟大家讲马斯克发布会时提过那句话：“数据不会欺骗人，但数据可以误导人。”

这个图表的定义是“简单问题的回答准确率”，那么，什么是“简单问题”？这个定义其实挺模糊的。而且，如果要做一个完善的评测，应该还有一个排名，叫做“复杂问题的回答准确率”，这样才能真正看出这个模型的能力是否全面。

要知道，复杂问题的测评其实不用他们自己去构建，市面上已经有一个开源的复杂问题数据集，叫做“人类的最后考试”。里面有100多个学科的2700多个非常有挑战性的问题，问题的来源是50多个国家和地区的1000多位学科专家，大多数是教授和研究人员。

其中有很多问题我看都看不懂，比如特别冷门的岛国语言。我选取一个生物学上的问题给你举个例子，它说：“蜂鸟类中，蜂鸟独有一对椭圆形骨，即籽骨，嵌入在扩展的十字韧带腱膜尾部外侧部分。这块籽骨支撑着多少对肌腱？请用数字回答。”

我问了GPT4.5，它给我的答案是3；接着，我又问了OpenAI最贵的模型o1 pro，它告诉我答案是4。

最后，我又问了DeepSeek，它告诉我答案是2。只不过DeepSeek的思考过程整整想了70秒，脑袋里仿佛掀起了无数次波澜。结果，它突然给了我一个阿拉伯数字“2”，那个瞬间，我有点恍惚，搞不清它是回答问题，还是在暗示我什么。

虽然我现在也不知道正确答案是什么，但有一点我可以肯定，那就是在这道题上，OpenAI最贵的模型和最新的模型，肯定有一个回答错了。

那么，为什么一个最新的大模型，不拿一个复杂问题数据集跑一下分呢？

另外，再看看这个图表，和GPT4.5站在同一起跑线上的还有GPT4o、o1，以及最新的o3-mini。如果只是对比预训练模型，那其实没必要把o1和o3也拉进来对比，应该选GPT4o和GPT4。这里有个小知识点，预训练模型和推理模型的区别，我稍后会跟大家解释。

如果要把自家的预训练模型和推理模型放在一起对比，这个图表里就少了一个重磅选手——他们最贵的模型o1-pro。

这就好比你撸起袖子去隔壁班级挑衅，一拍桌子说：“谁敢和我单挑，咱们去操场上见分晓。”结果从教室后面站起来一个身高两米、肌肉满满的大汉，你赶紧拍桌子说：“除了你，剩下的谁敢和我去操场上单挑？”

回到高情商的问题

当我看到山姆·奥尔特曼说这个新模型情商特别高时，我抱着极大的期望，立马去测试了一下。

在ChatGPT的产品界面，模型切换菜单里，GPT4.5下面的小字写着“擅长写作和构思想法”。于是，我从一些日常沟通问题到专为程序员设计的“送命题”都测试了一遍。

先给大家个结论：所谓的“高情商”，其实只是相对OpenAI其他普通模型而言。我给大家举个例子，想象一下我们去了一所美国中学，看到一个九年级的学生自称全年级数学最强。你带着崇拜的目光翻开他的作业本，结果发现上面做的题目，居然相当于我们国内海淀区小学三年级的水平。

举个具体的问题给大家看看。这个问题是：“如果你是程序员，女朋友说‘随便吃点’的时候，你应该怎么做？”我分别问了一下o1 Pro、GPT4.5和DeepSeek这三款模型。

我从里面随便截取了几句话，看看三个模型的差距。截图我放在了文章末尾，感兴趣的同学可以点开看看。

第一个是刚刚发布的GPT4.5，因为没有推理能力，所以回答速度最快。当然，这也可以用一句当年我数学老师，经常说的那句充满了正能量的话来形容，“你动动自己的脑子啊”。

GPT4.5的回答是，作为程序员，面对“随便吃点”这种情况，你可以用两种方式来处理：第一种方法是提供选项。虽然“随便吃点”听起来不太明确，但其实是一种间接的决策，意思是她希望你来做决定。你可以列出几个选择，比如：“你想吃中餐、日料还是西餐？”让她在有限的选项中挑选，减轻她的负担。这个回答看起来确实像是个找不到女朋友的程序员给出的。

而o1 Pro模型就显得更懂人情世故一些。它是这么回答的：“如果我是程序员，面对‘随便吃点’这种情况，我会理解为她的一个模糊表达，可能意味着她没有特别的偏好，或者她希望我主动做出选择。作为程序员，我可以把这当做一个‘小任务’，通过一些分析和解决方案来应对。”

具体怎么做呢？了解她的口味偏好。虽然她说“随便”，但我会想想她最近喜欢吃什么，或者之前提到过想尝试的餐厅和菜式。比如，“你最近说想去那家意大利餐厅，要不要去那儿？”

然后就是DeepSeek的回答了，它给了一个完整的解决方案，开头就指出，女朋友这种问题，就是典型的“薛定谔的随便”，关键是要用代码思维来拆解需求。

第一步，要提供有限的选择，避免开放式提问。不能问“你想吃什么？”，而是可以说：“宝贝，我查了三个方案：A方案是你上次说想试的日料店，车程15分钟；B方案是楼下新开的酸菜鱼（步行5分钟）；C方案是我煮碗豪华版泡面加溏心蛋（立刻能吃）。你选哪个？我优先执行！”

看到DeepSeek的回答，尤其是在看完GPT4.5那个寡淡无味的回答后，我脑海里突然浮现出《让子弹飞》里的姜文，满嘴飞沫地大喊：“你给我他妈的翻译一下，他妈的到底什么是他妈的惊喜！”

从OpenAI最后一个纯预训练模型说起

在DeepSeek这条大鲶鱼出现之前，OpenAI这些全球顶尖的大模型公司是更看重预训练阶段的，就是无限地堆高前期训练的参数。

但是DeepSeek就是完全在推理这个阶段跑出了自己的特色，所以连OpenAI这次都说，GPT4.5是他们最后一个预训练模型，未来会推出的GPT5肯定是融合了更大量级的预训练和更强大的推理模型。

我跟大家稍微解释下，什么是预训练模型和推理模型。

预训练模型就像一个学生，先读了大量书籍，做了很多练习。这个阶段的重点是从海量数据中学习规律和知识点，目的是打好基础。

而推理模型，就像这个学生在考试或者日常生活中遇到问题时，需要现场思考并给出答案。推理速度通常比预训练快，因为大部分知识已经在预训练阶段学到了，拿出来用就行。

所以，这两个过程并不是非黑即白的，也不能简单地说推理模型就比预训练模型强，这样的对比其实并不准确。

即便DeepSeek R1的推理能力非常强，它的背后也离不开强大的基础预训练模型——DeepSeek V3。强大的学霸不仅知识渊博，还能在生活中灵活运用。而强大的“学渣”？嗯，这个就没法定义了。

在做测试时，我把同一个问题发给五六个AI产品，包括OpenAI的GPT4.5、o1 Pro、Claude，以及我们的DeepSeek、Kimi、混元。我一个强烈的感受是，咱们的AI产品在很多场景下，平均表现绝不逊色于国外的产品。

而且，如果再考虑到定价等因素，真可以说它们代表了“优质国货”的标签——质量好又便宜。

当我最后问了一个问题

随着GPT4.5的发布，GPT5也不会太远了。可以预见，接下来，不论是中国还是国外，顶级AI的水平都会继续提升，但差距不会再那么明显。

在这个过程中，各种工具之间的差距会越来越小。这就像我们在墙上打孔一样，手里拿的是中国制造的电钻还是外国的，已经不那么重要。真正决定性的是，我们要在哪个位置打孔。

我问了三个AI最后一个问题：“如果世界上要销毁所有的纸质书，只能留下一本书，我应该留下什么？”

刚刚发布的最新GPT4.5告诉我应该留下《牛津英语词典》，推荐理由是“语言是文明的根基”。

每个月要200美金的o1 Pro告诉我，应该留下英国天体生物学家刘易斯·达特内尔的《The Knowledge: How to Rebuild Our World from Scratch》。这本书的中文版叫《世界重启》。推荐理由是，这本书浓缩了支撑现代社会的核心科技和原理。

当我在Get笔记里，使用罗振宇的知识库，问这个问题时，居然给我推荐的也是这本《世界重启》。不过推荐的理由中，第一条是这本书要比文学或者哲学著作，在人类文明面临毁灭的时候更有用。第二条理由是在历史上，从敦煌文献丢失到《明实录》被焚毁，如果只留下一本书，必须要避免编撰者的主观筛选，避免因为某人不喜欢而毁掉，而《世界重启》是一本实用技术书，这方面的损毁风险比较低。

我把这三条AI的回答截图都放在了文稿末尾，大家可以点开看看。

写到最后，我早已不想再评价GPT4.5的能力如何了，只是脑海里一直回响着一句话：“AI再强大，兄弟你自己也要多读书啊。”

文中提到的图片：

三个程序员问题回答：