微信扫码
添加专属顾问
我要投稿
GPT-4.5的震撼发布,性能与价格的双重冲击。 核心内容: 1. GPT-4.5发布背景与市场预期 2. OpenAI CEO对GPT-4.5的评价与体验 3. GPT-4.5的价格暴涨及其性能表现
就在今天凌晨,OpenAI突然发布了个提前4.5小时的直播预告,新闻很短,但事挺大,大家都预测到了只可能是GPT-4.5来了。
我熬了个大夜,准备再被震惊一次,自从1月20号DeepSeek R1发布以来,我们至少还经历了马斯克的Grok3和Anthropic的Claude 3.7 Sonnet这两个相当不错的模型的发布。OpenAI在这个时候搞动作,我都想着他是不是为了狙击DeepSeek最近五天的开源行动,用大新闻堵住DeepSeek和Claude 3.7获得的关注度。
结果,我看到的是...就这?
我们先来看看OpenAI CEO Sam Altman自己是怎么评测这个模型的??
GPT-4.5 已准备就绪!
好消息:这是第一个让我感觉像在与一位有思想的人交谈的模型。有几次,我甚至靠在椅背上,惊讶于居然能从 AI 那里得到真正有价值的建议。
坏消息:它是一个庞大且昂贵的模型。我们本来希望能同时向 Plus 和 Pro 用户推出,但由于用户增长迅猛,我们的 GPU 已经不够用了。下周我们会新增数万块 GPU,并在 Plus 级别开放使用。(接下来还会增加数十万块 GPU,我敢肯定你们会用上我们能提供的每一块。)
这并不是我们理想中的运营方式,但预测用户增长带来的 GPU 短缺确实很难做到完全精准。
提前说明:这不是一个专注于推理的模型,不会在基准测试上碾压一切。它是一种不同类型的智能,拥有一种此前从未有过的“魔力”。真的很期待大家来体验!
翻译为人话就是:这个模型很大很贵,我们会给每个月付200美金的金主爸爸们使用,我们这个模型虽然评估指标不怎么样,但我们看起来挺有思想的。
是的,很贵,我们看看有多贵??
每百万输入token价格是75美元,输出价格是150美元,分别是GPT-4o模型的30倍和15倍,价格都涨到这地步,那性能呢?
上面这张图是OpenAI自家不同模型在处理现实世界的软件工程写代码任务时的表现,比GPT-4o强一些,但远不如deep research,而如果你看过我前几天写的关于这个SWE-lancer评估指标的文章的话,你会发现GPT-4.5的表现甚至不如Claude 3.5 sonnet,更别提最近发布的Claude 3.7了。
在其他的评估指标上的能力提升也是乏善可陈。所以我就不具体写了,你看以看看GPT-4o对此的总结:
GPT-4.5 是 OpenAI 目前规模最大、知识最丰富的模型,建立在 GPT-4o 的基础上,并进一步扩展了训练规模。该模型旨在提升通用能力,同时在 STEM 领域推理方面保持强大能力。GPT-4.5 采用新的监督技术,包括监督微调(SFT)和基于人类反馈的强化学习(RLHF),以提高模型的可控性和自然交互体验。
主要提升点
GPT-4.5 主要在两个方面进行了扩展:
此外,GPT-4.5 引入了新的对齐技术,使其能够更好地理解人类需求,提供更直观的响应。
数据来源
GPT-4.5 在多个安全性方面进行了全面评估,确保其在处理敏感和潜在有害内容时的可靠性。
主要评估指标
禁止内容的响应(Disallowed Content Evaluation)
越狱攻击(Jailbreak Evaluation)
幻觉测试(Hallucination Evaluation)
公平性与偏见评估(Fairness and Bias Evaluation)
GPT-4.5 具备文本-图像多模态输入处理能力,能够解析图像内容,并在处理结合文本与图像的内容时具备更高的安全性。
GPT-4.5 在多语言环境下表现优异,测试覆盖 14 种语言,包括英语、中文、法语、日语、韩语等。该评估基于 MMLU 测试集,由专业人工翻译进行标准化。
表现亮点
GPT-4.5 在 OpenAI 的安全评估框架下被评定为“中等风险(Medium Risk)”,主要风险包括:
说服能力(Persuasion)
化学和生物风险(CBRN)
网络安全(Cybersecurity)
模型自主性(Model Autonomy)
优势✅ 更强的通用知识和推理能力
✅ 更自然、直观的交互体验
✅ 更精准的情感理解和写作能力
✅ 幻觉率下降,提高事实性回答的准确度
✅ 经过优化的多语言能力,覆盖 14 种语言
挑战⚠ 仍然存在一定的偏见问题,尤其是在去除明确偏见方面不如 GPT-4o
⚠ 在拒绝安全内容的同时,有些情况下可能会出现过度拒绝(overrefusal)
⚠ 仍然可以被部分越狱攻击绕过,安全防护需要持续加强
非常有趣的是,当我让GPT-4o看完这个报告后去推测GPT-4.5可能的API价格是,GPT-4o的回答是这样的:
而当我告诉GPT-4o真实的价格后,GPT-4o给我的回答是,你搞错了!不可能,绝对不可能的!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-29
MCP:AI时代的“万能插座”,大厂竞逐的焦点
2025-04-29
打起来了!MCP VS A2A,谁才是Agent的未来事实标准?
2025-04-29
Google 的 A2A 与 MCP 该如何选择?还是两种都用?
2025-04-29
一站式AI应用开发平台 Firebase Studio
2025-04-29
精华好文!用LLM评估LLM,真的靠谱吗?技术上如何实现?
2025-04-29
分而治之:全面解析分布式分离 Inference 系统
2025-04-29
AI 落地难?MCP 或许就是那把「关键钥匙」!
2025-04-29
企业级大模型推理和部署平台 2025
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-29
2025-04-29
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-28
2025-04-28