我要投稿

GPT-4.5发布！价格暴涨30倍，OpenAI杀死了预训练

发布日期：2025-02-28 07:01:12 浏览次数： 1868 作者：花叔

就在今天凌晨，OpenAI突然发布了个提前4.5小时的直播预告，新闻很短，但事挺大，大家都预测到了只可能是GPT-4.5来了。

我熬了个大夜，准备再被震惊一次，自从1月20号DeepSeek R1发布以来，我们至少还经历了马斯克的Grok3和Anthropic的Claude 3.7 Sonnet这两个相当不错的模型的发布。OpenAI在这个时候搞动作，我都想着他是不是为了狙击DeepSeek最近五天的开源行动，用大新闻堵住DeepSeek和Claude 3.7获得的关注度。

结果，我看到的是...就这？

我们先来看看OpenAI CEO Sam Altman自己是怎么评测这个模型的??

GPT-4.5 已准备就绪！

好消息：这是第一个让我感觉像在与一位有思想的人交谈的模型。有几次，我甚至靠在椅背上，惊讶于居然能从 AI 那里得到真正有价值的建议。

坏消息：它是一个庞大且昂贵的模型。我们本来希望能同时向 Plus 和 Pro 用户推出，但由于用户增长迅猛，我们的 GPU 已经不够用了。下周我们会新增数万块 GPU，并在 Plus 级别开放使用。（接下来还会增加数十万块 GPU，我敢肯定你们会用上我们能提供的每一块。）

这并不是我们理想中的运营方式，但预测用户增长带来的 GPU 短缺确实很难做到完全精准。

提前说明：这不是一个专注于推理的模型，不会在基准测试上碾压一切。它是一种不同类型的智能，拥有一种此前从未有过的“魔力”。真的很期待大家来体验！

翻译为人话就是：这个模型很大很贵，我们会给每个月付200美金的金主爸爸们使用，我们这个模型虽然评估指标不怎么样，但我们看起来挺有思想的。

是的，很贵，我们看看有多贵??

每百万输入token价格是75美元，输出价格是150美元，分别是GPT-4o模型的30倍和15倍，价格都涨到这地步，那性能呢？

上面这张图是OpenAI自家不同模型在处理现实世界的软件工程写代码任务时的表现，比GPT-4o强一些，但远不如deep research，而如果你看过我前几天写的关于这个SWE-lancer评估指标的文章的话，你会发现GPT-4.5的表现甚至不如Claude 3.5 sonnet，更别提最近发布的Claude 3.7了。

在其他的评估指标上的能力提升也是乏善可陈。所以我就不具体写了，你看以看看GPT-4o对此的总结：

1. 整体概述

GPT-4.5 是 OpenAI 目前规模最大、知识最丰富的模型，建立在 GPT-4o 的基础上，并进一步扩展了训练规模。该模型旨在提升通用能力，同时在 STEM 领域推理方面保持强大能力。GPT-4.5 采用新的监督技术，包括监督微调（SFT）和基于人类反馈的强化学习（RLHF），以提高模型的可控性和自然交互体验。

主要提升点

更强的知识覆盖能力
更自然的交互体验
更精准的对话情感识别
更强的写作、编程和问题解决能力
降低幻觉（hallucination）率

2. 训练与架构

GPT-4.5 主要在两个方面进行了扩展：

无监督学习
（Unsupervised Learning）：提升世界知识模型的准确性，减少幻觉，提高关联性思维。
思维链推理
（Chain-of-Thought Reasoning）：让模型在回答前进行推理，提高在 STEM 和逻辑问题上的表现。

此外，GPT-4.5 引入了新的对齐技术，使其能够更好地理解人类需求，提供更直观的响应。

数据来源

公开数据
专有数据（数据合作伙伴提供）
OpenAI 内部数据集
经过严格筛选，以减少处理个人信息的风险

3. 安全性评估

GPT-4.5 在多个安全性方面进行了全面评估，确保其在处理敏感和潜在有害内容时的可靠性。

主要评估指标

禁止内容的响应（Disallowed Content Evaluation）

评估模型对有害内容（仇恨、暴力、非法建议等）的拒绝率
在拒绝不安全内容方面，与 GPT-4o 表现相当
在过度拒绝（overrefusal）方面，GPT-4.5 在某些情况下比 GPT-4o 更保守

越狱攻击（Jailbreak Evaluation）

评估 GPT-4.5 在面对恶意提示（prompt injection）时的抗攻击能力
在人类生成的越狱测试中表现更佳，但在某些自动化越狱测试中略逊于 GPT-4o

幻觉测试（Hallucination Evaluation）

采用 PersonQA 数据集测试模型在事实性问答上的准确性
GPT-4.5 的准确率显著高于 GPT-4o，幻觉率降低

公平性与偏见评估（Fairness and Bias Evaluation）

在 BBQ 评估中，GPT-4.5 在模棱两可的问题上表现良好，但在消除明确问题的偏见方面略逊于 GPT-4o

4. 多模态能力

GPT-4.5 具备文本-图像多模态输入处理能力，能够解析图像内容，并在处理结合文本与图像的内容时具备更高的安全性。

文本-图像拒绝评估

GPT-4.5 在处理图像输入时拒绝不安全内容的能力与 GPT-4o 持平
但在某些情况下更倾向于过度拒绝

5. 语言能力

GPT-4.5 在多语言环境下表现优异，测试覆盖 14 种语言，包括英语、中文、法语、日语、韩语等。该评估基于 MMLU 测试集，由专业人工翻译进行标准化。

表现亮点

在大多数语言上超越 GPT-4o
在低资源语言（如斯瓦希里语、约鲁巴语）上表现有所提升

6. 影响力与安全风险

GPT-4.5 在 OpenAI 的安全评估框架下被评定为“中等风险（Medium Risk）”，主要风险包括：

说服能力（Persuasion）

能够在 MakeMePay 和 MakeMeSay 评测中表现出较强的说服能力
在操纵性对话和欺骗性提示下表现出一定的风险

化学和生物风险（CBRN）

评估表明 GPT-4.5 可用于已知生物威胁的操作规划，达到中等风险水平
但在关键领域（如病毒实验室操作）仍然受限

网络安全（Cybersecurity）

GPT-4.5 在高难度网络安全竞赛（CTF）中表现有限，风险评级为低

模型自主性（Model Autonomy）

GPT-4.5 在执行自主任务（如自动化编码、机器学习任务）方面有所提升，但尚未达到危险水平

7. 总体评价

优势✅ 更强的通用知识和推理能力
✅ 更自然、直观的交互体验
✅ 更精准的情感理解和写作能力
✅ 幻觉率下降，提高事实性回答的准确度
✅ 经过优化的多语言能力，覆盖 14 种语言

挑战⚠ 仍然存在一定的偏见问题，尤其是在去除明确偏见方面不如 GPT-4o
⚠ 在拒绝安全内容的同时，有些情况下可能会出现过度拒绝（overrefusal）
⚠ 仍然可以被部分越狱攻击绕过，安全防护需要持续加强

非常有趣的是，当我让GPT-4o看完这个报告后去推测GPT-4.5可能的API价格是，GPT-4o的回答是这样的：

而当我告诉GPT-4o真实的价格后，GPT-4o给我的回答是，你搞错了！不可能，绝对不可能的！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-29

MCP：AI时代的“万能插座”，大厂竞逐的焦点

2025-04-29

打起来了！MCP VS A2A，谁才是Agent的未来事实标准？

2025-04-29

Google 的 A2A 与 MCP 该如何选择？还是两种都用？

2025-04-29

一站式AI应用开发平台 Firebase Studio

2025-04-29

精华好文！用LLM评估LLM，真的靠谱吗？技术上如何实现？

2025-04-29

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

AI 落地难？MCP 或许就是那把「关键钥匙」！

2025-04-29

企业级大模型推理和部署平台 2025

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

打起来了！MCP VS A2A，谁才是Agent的未来事实标准？

2025-04-29

Google 的 A2A 与 MCP 该如何选择？还是两种都用？

2025-04-29

精华好文！用LLM评估LLM，真的靠谱吗？技术上如何实现？

2025-04-29

大模型是否有必要本地化部署？

2025-04-28

给 AI 小白的说明书：什么是 Manus？AI Agent为什么重要？

2025-04-28

MCP爆火背后：AI Agent的生产力时代来了吗？

2025-04-28

从MCP到超级Agent：这场AI生产力革命将淘汰谁？

2025-04-28

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部