微信扫码
添加专属顾问
我要投稿
OpenAI GPT4.5模型深度解析,揭开AI竞争新格局。 核心内容: 1. “鲶鱼效应”在AI领域的现实体现 2. GPT4.5模型发布背景与特点 3. GPT4.5模型的实际表现与未来趋势
如果你平时看一些商业书籍,或者上过商学院的课程,应该经常听到一个词——“鲶鱼效应”。说起来,这个词的故事源自北欧或者日本,有些渔民为了让沙丁鱼或者其他小鱼在长途运输中保持活力,会在鱼群里放一条鲶鱼。鲶鱼特别活泼好动,总是追着其他小鱼跑。小鱼们为了避免被鲶鱼吃掉,就必须不停游动,这样就能保持体力和活力,最后存活率也提高了。
虽然这个故事的真实性常被质疑,很多人认为它只是商业管理的寓言,但确实有学者对“外部竞争者刺激”这个话题进行了深入研究。早在1965年,美国心理学家罗伯特·扎荣茨就提出,当个体在他人或竞争对手的紧盯下执行任务时,表现往往会有所提升。
在AI的世界里,来自杭州的DeepSeek无疑是最近两个月的“鲶鱼”。而且他们的LOGO刚好也是一条鲸鱼,所以不妨说,这条鲸鱼般大小的鲶鱼,已经让很多AI 传统老玩家慌不择路了。
为什么这么说呢?
因为OpenAI就在2月28号匆匆发布了GPT4.5模型。奇怪的是,发布会上CEO山姆·奥尔特曼都没出现,而是在医院陪早产的孩子。大家理解,从人情上讲,当然是孩子更重要,但换个角度想,如果这次GPT4.5的发布会真的很关键,山姆完全可以推迟几天再办,而不是在社交媒体上发几个帖子应付过去。
01
GPT4.5到底怎么样?
发布会一结束,我赶紧去看了下自己的账户,果然已经有了这个模型。
山姆·奥尔特曼在X(也就是以前的推特)上说:“GPT4.5让我第一次感觉自己真的是在跟一个体贴的真人对话,几次我坐在那里,竟然惊讶地发现从AI那里得到了很好的建议。不过坏消息是,GPT4.5是个巨大而昂贵的模型,我们的GPU已经用完了,下周我们将增添数万个GPU。不过大家注意,这不是一个推理模型,所以并没有打破基准测试。”
说了这么多,其实他想表达的就是,这个模型大、贵,情商高,但别拿它来做跑分测试。
接下来,我就从这几个特性上,用最简单直白的话,跟大家说说。
首先,模型的参数量非常大。
虽然官方现在没有透露具体的数字,但就拿前一个版本GPT4来说,它的训练数据量已经超过了万亿级别,而GPT3.5版本只有1750亿。像OpenAI这样的AI大公司都出现GPU告急的情况,也能看出这个提升有多大。不过,单纯增加参数量,并不能带来能力的飞跃。这其实挺好理解的,就像一个学渣刷题,能从60分飙到90分,但从90分到95分,再往上提升,就不仅仅是刷题那么简单了,更多的是考验底层的逻辑思维能力,光靠刷题是很难突破的。
第二个特点就是超级贵。
这个贵,首先是因为OpenAI的成本很高,刚才说到GPU告急,所以他们现在优先提供给每个月200美元的Pro用户使用,等下周GPU增加后,才会让每个月20美元的Plus订阅会员用上。
至于这个模型的API价格,那才真是贵得惊人——每百万词节的输出就要150美元,差不多1000元人民币。这是什么概念呢?
DeepSeek最强大的V3和R1模型,每百万词节的输出才0.55美元,也就是大约3.85元人民币。也就是说,OpenAI这个新模型的价格是DeepSeek的273倍。
我个人感觉,这种离谱定价,并不是OpenAI觉得自己模型有多强,而更像一些商店,老板不舍得卖的东西摆出来,用个天价标价,营造一种“仅供观赏,勿摸”的效果。
第三个特点是情商特别高。
OpenAI官方把这个模型称为“原生更智慧的模型”,主要是和他们自己其他几个模型做对比。的确,在简单问题的回答准确率上,GPT4.5表现得比其他模型要强,而在简单问题的幻觉率上,它也是最低的。比如在简单问题的回答准确率上,GPT4.5是62.5,而GPT4o只有38.6,推理模型o1也只有47。至于大家常吐槽的AI幻觉,GPT4.5的幻觉率只有37.1,而GPT4o高达61,o1版本也有44。只从这些图上看,GPT4.5的确是很“能打”。
02
跑分图背后不想让我们知道的东西
不过,得说个“但是”。上周我跟大家讲马斯克发布会时提过那句话:“数据不会欺骗人,但数据可以误导人。”
这个图表的定义是“简单问题的回答准确率”,那么,什么是“简单问题”?这个定义其实挺模糊的。而且,如果要做一个完善的评测,应该还有一个排名,叫做“复杂问题的回答准确率”,这样才能真正看出这个模型的能力是否全面。
要知道,复杂问题的测评其实不用他们自己去构建,市面上已经有一个开源的复杂问题数据集,叫做“人类的最后考试”。里面有100多个学科的2700多个非常有挑战性的问题,问题的来源是50多个国家和地区的1000多位学科专家,大多数是教授和研究人员。
其中有很多问题我看都看不懂,比如特别冷门的岛国语言。我选取一个生物学上的问题给你举个例子,它说:“蜂鸟类中,蜂鸟独有一对椭圆形骨,即籽骨,嵌入在扩展的十字韧带腱膜尾部外侧部分。这块籽骨支撑着多少对肌腱?请用数字回答。”
我问了GPT4.5,它给我的答案是3;接着,我又问了OpenAI最贵的模型o1 pro,它告诉我答案是4。
最后,我又问了DeepSeek,它告诉我答案是2。只不过DeepSeek的思考过程整整想了70秒,脑袋里仿佛掀起了无数次波澜。结果,它突然给了我一个阿拉伯数字“2”,那个瞬间,我有点恍惚,搞不清它是回答问题,还是在暗示我什么。
虽然我现在也不知道正确答案是什么,但有一点我可以肯定,那就是在这道题上,OpenAI最贵的模型和最新的模型,肯定有一个回答错了。
那么,为什么一个最新的大模型,不拿一个复杂问题数据集跑一下分呢?
另外,再看看这个图表,和GPT4.5站在同一起跑线上的还有GPT4o、o1,以及最新的o3-mini。如果只是对比预训练模型,那其实没必要把o1和o3也拉进来对比,应该选GPT4o和GPT4。这里有个小知识点,预训练模型和推理模型的区别,我稍后会跟大家解释。
如果要把自家的预训练模型和推理模型放在一起对比,这个图表里就少了一个重磅选手——他们最贵的模型o1-pro。
这就好比你撸起袖子去隔壁班级挑衅,一拍桌子说:“谁敢和我单挑,咱们去操场上见分晓。”结果从教室后面站起来一个身高两米、肌肉满满的大汉,你赶紧拍桌子说:“除了你,剩下的谁敢和我去操场上单挑?”
03
回到高情商的问题
当我看到山姆·奥尔特曼说这个新模型情商特别高时,我抱着极大的期望,立马去测试了一下。
在ChatGPT的产品界面,模型切换菜单里,GPT4.5下面的小字写着“擅长写作和构思想法”。于是,我从一些日常沟通问题到专为程序员设计的“送命题”都测试了一遍。
先给大家个结论:所谓的“高情商”,其实只是相对OpenAI其他普通模型而言。我给大家举个例子,想象一下我们去了一所美国中学,看到一个九年级的学生自称全年级数学最强。你带着崇拜的目光翻开他的作业本,结果发现上面做的题目,居然相当于我们国内海淀区小学三年级的水平。
举个具体的问题给大家看看。这个问题是:“如果你是程序员,女朋友说‘随便吃点’的时候,你应该怎么做?”我分别问了一下o1 Pro、GPT4.5和DeepSeek这三款模型。
我从里面随便截取了几句话,看看三个模型的差距。截图我放在了文章末尾,感兴趣的同学可以点开看看。
第一个是刚刚发布的GPT4.5,因为没有推理能力,所以回答速度最快。当然,这也可以用一句当年我数学老师,经常说的那句充满了正能量的话来形容,“你动动自己的脑子啊”。
GPT4.5的回答是,作为程序员,面对“随便吃点”这种情况,你可以用两种方式来处理: 第一种方法是提供选项。虽然“随便吃点”听起来不太明确,但其实是一种间接的决策,意思是她希望你来做决定。你可以列出几个选择,比如:“你想吃中餐、日料还是西餐?”让她在有限的选项中挑选,减轻她的负担。 这个回答看起来确实像是个找不到女朋友的程序员给出的。
而o1 Pro模型就显得更懂人情世故一些。它是这么回答的:“如果我是程序员,面对‘随便吃点’这种情况,我会理解为她的一个模糊表达,可能意味着她没有特别的偏好,或者她希望我主动做出选择。作为程序员,我可以把这当做一个‘小任务’,通过一些分析和解决方案来应对。”
具体怎么做呢?了解她的口味偏好。虽然她说“随便”,但我会想想她最近喜欢吃什么,或者之前提到过想尝试的餐厅和菜式。比如,“你最近说想去那家意大利餐厅,要不要去那儿?”
然后就是DeepSeek的回答了,它给了一个完整的解决方案,开头就指出,女朋友这种问题,就是典型的“薛定谔的随便”,关键是要用代码思维来拆解需求。
第一步,要提供有限的选择,避免开放式提问。不能问“你想吃什么?”,而是可以说:“宝贝,我查了三个方案:A方案是你上次说想试的日料店,车程15分钟;B方案是楼下新开的酸菜鱼(步行5分钟);C方案是我煮碗豪华版泡面加溏心蛋(立刻能吃)。你选哪个?我优先执行!”
看到DeepSeek的回答,尤其是在看完GPT4.5那个寡淡无味的回答后,我脑海里突然浮现出《让子弹飞》里的姜文,满嘴飞沫地大喊:“你给我他妈的翻译一下,他妈的到底什么是他妈的惊喜!”
04
从OpenAI最后一个纯预训练模型说起
在DeepSeek这条大鲶鱼出现之前,OpenAI这些全球顶尖的大模型公司是更看重预训练阶段的,就是无限地堆高前期训练的参数。
但是DeepSeek就是完全在推理这个阶段跑出了自己的特色,所以连OpenAI这次都说,GPT4.5是他们最后一个预训练模型,未来会推出的GPT5肯定是融合了更大量级的预训练和更强大的推理模型。
我跟大家稍微解释下,什么是预训练模型和推理模型。
预训练模型就像一个学生,先读了大量书籍,做了很多练习。这个阶段的重点是从海量数据中学习规律和知识点,目的是打好基础。
而推理模型,就像这个学生在考试或者日常生活中遇到问题时,需要现场思考并给出答案。推理速度通常比预训练快,因为大部分知识已经在预训练阶段学到了,拿出来用就行。
所以,这两个过程并不是非黑即白的,也不能简单地说推理模型就比预训练模型强,这样的对比其实并不准确。
即便DeepSeek R1的推理能力非常强,它的背后也离不开强大的基础预训练模型——DeepSeek V3。强大的学霸不仅知识渊博,还能在生活中灵活运用。而强大的“学渣”?嗯,这个就没法定义了。
在做测试时,我把同一个问题发给五六个AI产品,包括OpenAI的GPT4.5、o1 Pro、Claude,以及我们的DeepSeek、Kimi、混元。我一个强烈的感受是,咱们的AI产品在很多场景下,平均表现绝不逊色于国外的产品。
而且,如果再考虑到定价等因素,真可以说它们代表了“优质国货”的标签——质量好又便宜。
05
当我最后问了一个问题
随着GPT4.5的发布,GPT5也不会太远了。可以预见,接下来,不论是中国还是国外,顶级AI的水平都会继续提升,但差距不会再那么明显。
在这个过程中,各种工具之间的差距会越来越小。这就像我们在墙上打孔一样,手里拿的是中国制造的电钻还是外国的,已经不那么重要。真正决定性的是,我们要在哪个位置打孔。
我问了三个AI最后一个问题:“如果世界上要销毁所有的纸质书,只能留下一本书,我应该留下什么?”
刚刚发布的最新GPT4.5告诉我应该留下《牛津英语词典》,推荐理由是“语言是文明的根基”。
每个月要200美金的o1 Pro告诉我,应该留下英国天体生物学家刘易斯·达特内尔的《The Knowledge: How to Rebuild Our World from Scratch》。这本书的中文版叫《世界重启》。推荐理由是,这本书浓缩了支撑现代社会的核心科技和原理。
当我在Get笔记里,使用罗振宇的知识库,问这个问题时,居然给我推荐的也是这本《世界重启》。不过推荐的理由中,第一条是这本书要比文学或者哲学著作,在人类文明面临毁灭的时候更有用。第二条理由是在历史上,从敦煌文献丢失到《明实录》被焚毁,如果只留下一本书,必须要避免编撰者的主观筛选,避免因为某人不喜欢而毁掉,而《世界重启》是一本实用技术书,这方面的损毁风险比较低。
我把这三条AI的回答截图都放在了文稿末尾,大家可以点开看看。
写到最后,我早已不想再评价GPT4.5的能力如何了,只是脑海里一直回响着一句话:“AI再强大,兄弟你自己也要多读书啊。”
文中提到的图片:
三个程序员问题回答:
最后一段的截图:
GPT4.5
o1Pro
Get 笔记-“罗振宇学习笔记”知识库里的回答
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-17
无需运维!Dify+Ollama 点选式搭建DeepSeek大模型,太绝了!!!
2025-04-17
OpenAI发布o3与o4-mini,还开源两个项目
2025-04-17
OpenAI开源的Codex CLI是什么?
2025-04-17
社区供稿 | 3700 次预训练总结超参规律,开源海量实验,告别盲猜
2025-04-17
好用的开源Agent框架概览与比较分析
2025-04-17
OpenAI开源超火Agent,5小时破5000颗星,霸榜Github
2025-04-17
复刻小智AI,ESP32-S3搭建Arduino+ESP-SR+ESP-TTS开发环境踩坑记录
2025-04-17
openai-python v1.74.0 震撼发布!GPT-4.1 家族来袭,开发者必看更新解析!
2025-01-01
2024-07-25
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-06-12
2024-07-11
2024-08-13
2024-12-26
2025-04-17
2025-04-15
2025-04-13
2025-04-10
2025-04-07
2025-04-03
2025-04-03
2025-04-03