支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


实测OpenAI最新GPT4.5模型,情商最强纯属夸张

发布日期:2025-02-28 18:32:59 浏览次数: 2085 作者:快刀青衣
推荐语

OpenAI GPT4.5模型深度解析,揭开AI竞争新格局。

核心内容:
1. “鲶鱼效应”在AI领域的现实体现
2. GPT4.5模型发布背景与特点
3. GPT4.5模型的实际表现与未来趋势

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


如果你平时看一些商业书籍,或者上过商学院的课程,应该经常听到一个词——“鲶鱼效应”。说起来,这个词的故事源自北欧或者日本,有些渔民为了让沙丁鱼或者其他小鱼在长途运输中保持活力,会在鱼群里放一条鲶鱼。鲶鱼特别活泼好动,总是追着其他小鱼跑。小鱼们为了避免被鲶鱼吃掉,就必须不停游动,这样就能保持体力和活力,最后存活率也提高了。


虽然这个故事的真实性常被质疑,很多人认为它只是商业管理的寓言,但确实有学者对“外部竞争者刺激”这个话题进行了深入研究。早在1965年,美国心理学家罗伯特·扎荣茨就提出,当个体在他人或竞争对手的紧盯下执行任务时,表现往往会有所提升。


在AI的世界里,来自杭州的DeepSeek无疑是最近两个月的“鲶鱼”。而且他们的LOGO刚好也是一条鲸鱼,所以不妨说,这条鲸鱼般大小的鲶鱼,已经让很多AI 传统老玩家慌不择路了。


为什么这么说呢?


因为OpenAI就在2月28号匆匆发布了GPT4.5模型。奇怪的是,发布会上CEO山姆·奥尔特曼都没出现,而是在医院陪早产的孩子。大家理解,从人情上讲,当然是孩子更重要,但换个角度想,如果这次GPT4.5的发布会真的很关键,山姆完全可以推迟几天再办,而不是在社交媒体上发几个帖子应付过去。



01

GPT4.5到底怎么样?


发布会一结束,我赶紧去看了下自己的账户,果然已经有了这个模型。


山姆·奥尔特曼在X(也就是以前的推特)上说:“GPT4.5让我第一次感觉自己真的是在跟一个体贴的真人对话,几次我坐在那里,竟然惊讶地发现从AI那里得到了很好的建议。不过坏消息是,GPT4.5是个巨大而昂贵的模型,我们的GPU已经用完了,下周我们将增添数万个GPU。不过大家注意,这不是一个推理模型,所以并没有打破基准测试。”


说了这么多,其实他想表达的就是,这个模型大、贵,情商高,但别拿它来做跑分测试。


接下来,我就从这几个特性上,用最简单直白的话,跟大家说说。


首先,模型的参数量非常大。


虽然官方现在没有透露具体的数字,但就拿前一个版本GPT4来说,它的训练数据量已经超过了万亿级别,而GPT3.5版本只有1750亿。像OpenAI这样的AI大公司都出现GPU告急的情况,也能看出这个提升有多大。不过,单纯增加参数量,并不能带来能力的飞跃。这其实挺好理解的,就像一个学渣刷题,能从60分飙到90分,但从90分到95分,再往上提升,就不仅仅是刷题那么简单了,更多的是考验底层的逻辑思维能力,光靠刷题是很难突破的。


第二个特点就是超级贵。


这个贵,首先是因为OpenAI的成本很高,刚才说到GPU告急,所以他们现在优先提供给每个月200美元的Pro用户使用,等下周GPU增加后,才会让每个月20美元的Plus订阅会员用上。


至于这个模型的API价格,那才真是贵得惊人——每百万词节的输出就要150美元,差不多1000元人民币。这是什么概念呢?


DeepSeek最强大的V3和R1模型,每百万词节的输出才0.55美元,也就是大约3.85元人民币。也就是说,OpenAI这个新模型的价格是DeepSeek的273倍。


我个人感觉,这种离谱定价,并不是OpenAI觉得自己模型有多强,而更像一些商店,老板不舍得卖的东西摆出来,用个天价标价,营造一种“仅供观赏,勿摸”的效果。


第三个特点是情商特别高。


OpenAI官方把这个模型称为“原生更智慧的模型”,主要是和他们自己其他几个模型做对比。的确,在简单问题的回答准确率上,GPT4.5表现得比其他模型要强,而在简单问题的幻觉率上,它也是最低的。比如在简单问题的回答准确率上,GPT4.5是62.5,而GPT4o只有38.6,推理模型o1也只有47。至于大家常吐槽的AI幻觉,GPT4.5的幻觉率只有37.1,而GPT4o高达61,o1版本也有44。只从这些图上看,GPT4.5的确是很“能打”。



02

跑分图背后不想让我们知道的东西


不过,得说个“但是”。上周我跟大家讲马斯克发布会时提过那句话:“数据不会欺骗人,但数据可以误导人。”


这个图表的定义是“简单问题的回答准确率”,那么,什么是“简单问题”?这个定义其实挺模糊的。而且,如果要做一个完善的评测,应该还有一个排名,叫做“复杂问题的回答准确率”,这样才能真正看出这个模型的能力是否全面。


要知道,复杂问题的测评其实不用他们自己去构建,市面上已经有一个开源的复杂问题数据集,叫做“人类的最后考试”。里面有100多个学科的2700多个非常有挑战性的问题,问题的来源是50多个国家和地区的1000多位学科专家,大多数是教授和研究人员。


其中有很多问题我看都看不懂,比如特别冷门的岛国语言。我选取一个生物学上的问题给你举个例子,它说:“蜂鸟类中,蜂鸟独有一对椭圆形骨,即籽骨,嵌入在扩展的十字韧带腱膜尾部外侧部分。这块籽骨支撑着多少对肌腱?请用数字回答。”



我问了GPT4.5,它给我的答案是3;接着,我又问了OpenAI最贵的模型o1 pro,它告诉我答案是4。



最后,我又问了DeepSeek,它告诉我答案是2。只不过DeepSeek的思考过程整整想了70秒,脑袋里仿佛掀起了无数次波澜。结果,它突然给了我一个阿拉伯数字“2”,那个瞬间,我有点恍惚,搞不清它是回答问题,还是在暗示我什么。


虽然我现在也不知道正确答案是什么,但有一点我可以肯定,那就是在这道题上,OpenAI最贵的模型和最新的模型,肯定有一个回答错了。


那么,为什么一个最新的大模型,不拿一个复杂问题数据集跑一下分呢?


另外,再看看这个图表,和GPT4.5站在同一起跑线上的还有GPT4o、o1,以及最新的o3-mini。如果只是对比预训练模型,那其实没必要把o1和o3也拉进来对比,应该选GPT4o和GPT4。这里有个小知识点,预训练模型和推理模型的区别,我稍后会跟大家解释。


如果要把自家的预训练模型和推理模型放在一起对比,这个图表里就少了一个重磅选手——他们最贵的模型o1-pro。


这就好比你撸起袖子去隔壁班级挑衅,一拍桌子说:“谁敢和我单挑,咱们去操场上见分晓。”结果从教室后面站起来一个身高两米、肌肉满满的大汉,你赶紧拍桌子说:“除了你,剩下的谁敢和我去操场上单挑?”


03

回到高情商的问题


当我看到山姆·奥尔特曼说这个新模型情商特别高时,我抱着极大的期望,立马去测试了一下。


在ChatGPT的产品界面,模型切换菜单里,GPT4.5下面的小字写着“擅长写作和构思想法”。于是,我从一些日常沟通问题到专为程序员设计的“送命题”都测试了一遍。


先给大家个结论:所谓的“高情商”,其实只是相对OpenAI其他普通模型而言。我给大家举个例子,想象一下我们去了一所美国中学,看到一个九年级的学生自称全年级数学最强。你带着崇拜的目光翻开他的作业本,结果发现上面做的题目,居然相当于我们国内海淀区小学三年级的水平。


举个具体的问题给大家看看。这个问题是:“如果你是程序员,女朋友说‘随便吃点’的时候,你应该怎么做?”我分别问了一下o1 Pro、GPT4.5和DeepSeek这三款模型。


我从里面随便截取了几句话,看看三个模型的差距。截图我放在了文章末尾,感兴趣的同学可以点开看看。


第一个是刚刚发布的GPT4.5,因为没有推理能力,所以回答速度最快。当然,这也可以用一句当年我数学老师,经常说的那句充满了正能量的话来形容,“你动动自己的脑子啊”。


GPT4.5的回答是,作为程序员,面对“随便吃点”这种情况,你可以用两种方式来处理: 第一种方法是提供选项。虽然“随便吃点”听起来不太明确,但其实是一种间接的决策,意思是她希望你来做决定。你可以列出几个选择,比如:“你想吃中餐、日料还是西餐?”让她在有限的选项中挑选,减轻她的负担。 这个回答看起来确实像是个找不到女朋友的程序员给出的。


而o1 Pro模型就显得更懂人情世故一些。它是这么回答的:“如果我是程序员,面对‘随便吃点’这种情况,我会理解为她的一个模糊表达,可能意味着她没有特别的偏好,或者她希望我主动做出选择。作为程序员,我可以把这当做一个‘小任务’,通过一些分析和解决方案来应对。”


具体怎么做呢?了解她的口味偏好。虽然她说“随便”,但我会想想她最近喜欢吃什么,或者之前提到过想尝试的餐厅和菜式。比如,“你最近说想去那家意大利餐厅,要不要去那儿?”


然后就是DeepSeek的回答了,它给了一个完整的解决方案,开头就指出,女朋友这种问题,就是典型的“薛定谔的随便”,关键是要用代码思维来拆解需求。


第一步,要提供有限的选择,避免开放式提问。不能问“你想吃什么?”,而是可以说:“宝贝,我查了三个方案:A方案是你上次说想试的日料店,车程15分钟;B方案是楼下新开的酸菜鱼(步行5分钟);C方案是我煮碗豪华版泡面加溏心蛋(立刻能吃)。你选哪个?我优先执行!”


看到DeepSeek的回答,尤其是在看完GPT4.5那个寡淡无味的回答后,我脑海里突然浮现出《让子弹飞》里的姜文,满嘴飞沫地大喊:“你给我他妈的翻译一下,他妈的到底什么是他妈的惊喜!”



04

从OpenAI最后一个纯预训练模型说起


在DeepSeek这条大鲶鱼出现之前,OpenAI这些全球顶尖的大模型公司是更看重预训练阶段的,就是无限地堆高前期训练的参数。


但是DeepSeek就是完全在推理这个阶段跑出了自己的特色,所以连OpenAI这次都说,GPT4.5是他们最后一个预训练模型,未来会推出的GPT5肯定是融合了更大量级的预训练和更强大的推理模型。


我跟大家稍微解释下,什么是预训练模型和推理模型。


预训练模型就像一个学生,先读了大量书籍,做了很多练习。这个阶段的重点是从海量数据中学习规律和知识点,目的是打好基础。


而推理模型,就像这个学生在考试或者日常生活中遇到问题时,需要现场思考并给出答案。推理速度通常比预训练快,因为大部分知识已经在预训练阶段学到了,拿出来用就行。


所以,这两个过程并不是非黑即白的,也不能简单地说推理模型就比预训练模型强,这样的对比其实并不准确。


即便DeepSeek R1的推理能力非常强,它的背后也离不开强大的基础预训练模型——DeepSeek V3。强大的学霸不仅知识渊博,还能在生活中灵活运用。而强大的“学渣”?嗯,这个就没法定义了。


在做测试时,我把同一个问题发给五六个AI产品,包括OpenAI的GPT4.5、o1 Pro、Claude,以及我们的DeepSeek、Kimi、混元。我一个强烈的感受是,咱们的AI产品在很多场景下,平均表现绝不逊色于国外的产品。

而且,如果再考虑到定价等因素,真可以说它们代表了“优质国货”的标签——质量好又便宜。


05

当我最后问了一个问题


随着GPT4.5的发布,GPT5也不会太远了。可以预见,接下来,不论是中国还是国外,顶级AI的水平都会继续提升,但差距不会再那么明显。


在这个过程中,各种工具之间的差距会越来越小。这就像我们在墙上打孔一样,手里拿的是中国制造的电钻还是外国的,已经不那么重要。真正决定性的是,我们要在哪个位置打孔。


我问了三个AI最后一个问题:“如果世界上要销毁所有的纸质书,只能留下一本书,我应该留下什么?


刚刚发布的最新GPT4.5告诉我应该留下《牛津英语词典》,推荐理由是“语言是文明的根基”。


每个月要200美金的o1 Pro告诉我,应该留下英国天体生物学家刘易斯·达特内尔的《The Knowledge: How to Rebuild Our World from Scratch》。这本书的中文版叫《世界重启》。推荐理由是,这本书浓缩了支撑现代社会的核心科技和原理。


当我在Get笔记里,使用罗振宇的知识库,问这个问题时,居然给我推荐的也是这本《世界重启》。不过推荐的理由中,第一条是这本书要比文学或者哲学著作,在人类文明面临毁灭的时候更有用。第二条理由是在历史上,从敦煌文献丢失到《明实录》被焚毁,如果只留下一本书,必须要避免编撰者的主观筛选,避免因为某人不喜欢而毁掉,而《世界重启》是一本实用技术书,这方面的损毁风险比较低。


我把这三条AI的回答截图都放在了文稿末尾,大家可以点开看看。


写到最后,我早已不想再评价GPT4.5的能力如何了,只是脑海里一直回响着一句话:“AI再强大,兄弟你自己也要多读书啊。”


文中提到的图片:

三个程序员问题回答:


最后一段的截图:

GPT4.5


o1Pro


Get 笔记-“罗振宇学习笔记”知识库里的回答


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询