微信扫码
添加专属顾问
我要投稿
OpenAI GPT4.5发布,评测显示它更像人类!情感理解和建议能力大提升。 核心内容: 1. GPT4.5发布,Sam Altman评测称其更像与有思想的人交谈 2. GPT-4.5在理解用户情绪和需求方面表现出色,给出更温和建设性的回复 3. 除了情商升级,GPT-4.5知识更渊博,能力更全面,但推理能力并非其强项
北京时间凌晨4点钟OpenAI举行一个14分钟左右的直播发布,GPT4.5 终于发布了!凌晨4点爬起来第一时间给大家更新,?
废话不多说,先看看Sam Altman的对GPT 4.5的感受:
Sam:
GPT-4.5 准备好了!
好消息: 它是我遇到的第一个感觉像是在和一位有思想的人交谈的模型。 我有好几次都向后靠在椅子上,惊讶于竟然能从人工智能那里得到真正的好建议
坏消息: 这是一个庞大且昂贵的模型。 我们真的想同时向 Plus 和 Pro 用户推出它,但我们的用户增长非常迅速,以至于 GPU 不够用了。 我们将在下周增加数万个 GPU,然后向 Plus 用户层推出它。(数十万个即将到来,而且我确信你们会用完我们能部署的每一个。)
这不是我们希望的运营方式,但很难完美预测导致 GPU 短缺的增长激增。
温馨提示:这并非一个推理模型,也不会在基准测试中表现突出。 这是一种不同类型的智能,并且它有一种我以前从未感受过的魔力。 真的非常激动能让大家试试它!
是不是觉得泛善可陈?下面我们来看看GPT4.5长什么样子(发布会视频附在文章最后):
发布会一开始上,OpenAI先展示了一个例子。当用户表达 “朋友又取消了我的约会,我太生气了,想发消息骂他” 这种负面情绪时, GPT-4.5 展现出了惊人的理解能力和情商:
这种细微的情感理解和微妙回应,正是 GPT-4.5 的亮点之一!它不再是冷冰冰的机器,能够更好地理解我们的 真实意图和情感需求。
知识更渊博,能力更全面
除了情商升级, GPT-4.5 的知识储备和能力也得到了显著提升。发布会上OpenAI对比了 GPT 系列模型回答 “为什么海洋是咸的” 这个问题:
更强,更快,更安全
按照OpenAI的说法这些进步背后,是 GPT-4.5 在技术上的全面升级:
发布会上OpenAI 还展示了 GPT-4.5 在各种 benchmark 上表现:
GBQA (推理密集型科学评估): 大幅提升!虽然还落后于 OpenAI-03 Mini (可以思考后再回答的模型),但已经非常接近!
AIME24 (美国高中竞赛数学评估): 相对推理模型提升不多
SWE Bench verified (Agentic 编码评估): 相比GPT4o仅仅提升7%
SWE Lancer (更依赖世界知识的 Agentic 编码评估): 超越 OpenAI-03 Mini!
Multilingual MMLU (多语言语言理解基准): 提升不到4%
Multimodal MMLU (多模态理解): 多模态能力提升5%左右
相信大家和我一样,对 GPT 的每一次迭代都充满了期待。这次的 GPT-4.5 更是吊足了大家的胃口,毕竟距离 GPT-4 发布已经过去大约两年了!AI 大神OpenAI联合创始人提前拿到了GPT4.5 的内测资格, Andrej Karpathy 亲自发声,对 GPT-4.5 进行了深度解读
Karpathy 在他的推文中开门见山地指出,他期待 GPT-4.5 已经很久了,原因在于这次升级提供了一个定性衡量指标,可以观察到通过扩大预训练算力(简单来说就是训练更大的模型)所带来的性能提升斜率
他透露了一个关键信息:GPT 版本号每增加 0.5,大致意味着预训练算力提升了 10 倍!
为了让大家更直观地理解这个 "0.5" 的意义,Karpathy 还回顾了 GPT 系列的发展历程:
GPT-4 的提升更像是一种“润物细无声”的感觉:
就像是 “水涨船高”,所有方面都提升了大约 20%。 ?
带着对 GPT-4 这种“微妙提升”的预期,Karpathy 对 GPT-4.5 进行了测试(他提前几天获得了访问权限)。这次 GPT-4.5 的预训练算力比 GPT-4 又提升了 10 倍!
然而,Karpathy 发现,他仿佛又回到了两年前的黑客马拉松:一切都变得更好,而且非常棒,但提升的方式仍然难以明确指出 ?
尽管如此,这仍然非常有趣和令人兴奋,因为它再次定性地衡量了仅仅通过预训练更大的模型就能“免费”获得的能力提升斜率。 这说明,单纯地堆算力,依然能带来肉眼可见的进步,只是进步的方式可能更加内敛和精细化
Karpathy 特别强调,GPT-4.5 仅仅通过预训练、监督微调和 RLHF(人类反馈强化学习)进行训练,因此它还不是一个真正的“推理模型”
这意味着,在需要强大推理能力的任务(例如数学、代码等)中,GPT-4.5 的能力提升可能并不显著。在这些领域,通过强化学习进行“思考”训练至关重要,即使是基于较旧的基础模型(例如 GPT-4 级别的能力)进行训练,效果也会更好
目前,OpenAI 在这方面的最先进模型仍然是 full o1 。 据推测,OpenAI 接下来可能会在 GPT-4.5 模型的基础上,进一步进行强化学习训练,使其具备“思考”能力,从而推动模型在推理领域的性能提升。
虽然在推理方面提升有限,但 Karpathy 认为,在那些不依赖重度推理的任务中,我们仍然可以期待 GPT-4.5 的进步。 他认为,这些任务更多与 情商 (EQ) 相关,而非智商 (IQ),并且瓶颈可能在于:
因此,Karpathy 在测试 GPT-4.5 时,最关注的也是这些方面。
为了更直观地展示 GPT-4 和 GPT-4.5 在这些 “情商” 相关任务上的差异,Karpathy 发起了一个有趣的 “LM Arena Lite” 实验。
他精心挑选了 5 个有趣/幽默的 prompt,用来测试模型在上述能力上的表现。 他将 prompt 和 GPT-4、GPT-4.5 的回复截图发布在 X 上,并穿插投票,让大家投票选出哪个回复更好,类似下面这种问题和投票方式
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-26
从Function Call到MCP:大模型如何调用外部工具
2025-04-26
增量代码自动Review工具:洞窝在AI上的探索和实践
2025-04-25
OpenAI 白送 200 美元的深度研究功能?实测后发现这个「阉割版」不如不用
2025-04-25
为什么一定要做Agent智能体?
2025-04-25
哇!首个MCPBench来了,MCP竟然不比Function Calls更有优势? | 最新
2025-04-25
医疗大模型案例分析(一):Google Med-PaLM
2025-04-25
vLLM+Qwen-32B+Open Web UI构建本地私有大模型
2025-04-25
AI产品经理思考MCP(3):MCP的未来可能
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17