微信扫码
添加专属顾问
我要投稿
OpenAI的最新GPT-4.1系列模型在性能和成本上实现革命性突破。 核心内容: 1. GPT-4.1系列模型的推出,包括Nano、Mini和标准版本 2. 性能全面超越前代,代码能力和指令遵循能力显著提升 3. 支持百万Token上下文窗口,图像理解能力达到新高度
OpenAI又放了个大招,正式在API中推出了全新的GPT-4.1系列模型!包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三款新成员
引入首个Nano模型:GPT-4.1 nano是OpenAI迄今最快、最便宜的模型,虽然小,但能力不俗(MMLU 80.1%, GPQA 50.3%),同样拥有100万Token上下文,非常适合需要低延迟的场景
目前GPT-4.1系列仅通过API提供
简单来说,这次更新的核心就是:代码能力大幅提升、指令遵循重大改进、成本极其便宜!
全面超越前辈:官方表示,新模型在各项能力上普遍优于之前的GPT-4o和GPT-4o mini,更重要的是,无论你需要多快的响应速度,这个新系列总能提供一个比以往模型在同等速度下性能更好的选项,全面提升了不同应用场景下的性能标杆,比如,需要极低延迟的,可以用 Nano,它比之前的低延迟模型性能更好;需要中等平衡的,可以用 Mini,它提供了新的更优平衡点;需要最高性能的,可以用 GPT-4.1,它在可接受延迟下性能更强
编程能力大幅跃升:在衡量真实世界软件工程任务的SWE-bench Verified
基准上,GPT-4.1得分54.6%,比GPT-4o绝对提升了21.4%,甚至比GPT-4.5还高了26.6%!妥妥的编码利器
指令遵循更可靠:在评估复杂指令遵循能力的Scale's MultiChallenge
基准上,GPT-4.1得分38.3%,比GPT-4o绝对提升10.5%。这意味着它更能理解并执行你的复杂要求,尤其是在多轮对话中,能更好地追踪上下文信息
百万级Token上下文窗口:全系列(包括mini和nano)都支持高达100万Token的上下文窗口(之前GPT-4o是12.8万),处理超长文档、代码库不再是难题。而且,不是简单加长,长文本理解能力也同步增强,"大海捞针"测试(Needle in a Haystack)在100万Token范围内各位置都能精准找回信息
视觉理解新SOTA:GPT-4.1 系列在图像理解方面非常强大,尤其是 GPT-4.1 mini 代表了重大的飞跃
在 MMMU 中 ,模型可以回答包含图表、示意图、地图等复杂图像问题
在数学视觉任务中也很强大
解决科学论文中的图表能力表现:
在Video-MME
(无字幕长视频理解)基准上,GPT-4.1取得了72.0% 的成绩,比GPT-4o提升了6.7%,创下新纪录
知识更新:知识库截止日期更新到了2024年6月
gpt-4.1 | $1.84 | |||
gpt-4.1-mini | $0.42 | |||
gpt-4.1-nano | $0.12 |
Nano 已经比deepseek R1的价格还要便宜了
*基于典型输入/输出和缓存比例估算
除了SWE-bench,在Aider的polyglot diff
基准上,GPT-4.1分数是GPT-4o的两倍多,甚至比GPT-4.5高8%,尤其擅长生成可靠的代码差异(diff format),节省token和延迟
前端代码生成能力显著增强,更美观实用,80%的情况下人类评分员更喜欢GPT-4.1生成的网站。
更少出现无关代码编辑(内部评估从9%降至2%)
真实案例:Windsurf测试中得分比GPT-4o高60%;Qodo代码评审测试中55%情况下优于其他模型
在格式遵循(XML, YAML等)、否定指令、顺序指令、内容要求、排序、避免过度自信等方面都有改进,尤其擅长处理困难提示
多轮对话能力增强,能更好地利用历史信息。
注意:模型可能更“字面化”理解指令,建议提示词写得更明确、具体
真实案例:Blue J税务场景准确率提升53%;Hex SQL生成改进近2倍,减少手动调试
100万Token相当于8倍React完整代码库的大小
不仅能“大海捞针”,还能处理更复杂的长文本任务。OpenAI开源了两个新评测集:OpenAI-MRCR
(多轮指代消解,测试在长文本中区分多个相似信息点的能力)
和Graphwalks
(多跳推理,模拟代码库跳转或文档交叉引用)。GPT-4.1在这些任务上表现优异
真实案例:Thomson Reuters在CoCounsel法律助手中,多文档审阅准确率提升17%;Carlyle在处理复杂金融文档(PDF, Excel)时,检索性能提升50%,克服了以往模型的局限。
延迟:GPT-4.1在12.8万Token输入时,首个Token响应时间(p95)约15秒,百万Token时可能达半分钟;Nano在12.8万输入时,通常5秒内返回首个Token
OpenAI把4.1模型比作类星体,不得不说,这炒作能力还是很高的
另外,
ChatGPT中的GPT-4o会逐步融合这些改进,但不是直接升级到GPT-4.1
GPT-4.5 Preview即将下线:由于GPT-4.1在性能、成本、延迟上更有优势,GPT-4.5 Preview(作为研究预览版发布)将在2025年7月14日正式关闭,开发者有三个月过渡时间。OpenAI表示会将其优点(创意、写作质量等)融入未来的API模型
个人感觉4.1这个模型更多的是在工程能力的细节处进行了非常扎实的改进
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-16
Claude 推出高级 Research 功能,并深度集成 Google Workspace
2025-04-16
智能体工作流与设计模式解析
2025-04-16
GPT-4.1一手实测,实力绝对被低估了
2025-04-16
这些你不知道的 OpenAI 4.1 秘密
2025-04-15
前沿导读 | 大模型智能体驱动的社会仿真
2025-04-15
Gemini 2.5 Pro 暴击 OpenAI,性能猛兽不翻车,全球顶尖实至名归
2025-04-15
OpenAI 再放大招!100 万超长上下文的GPT-4.1 横空出世
2025-04-15
5W字长文 Agent多智能体探秘:架构设计、交互模式与应用实践深度剖析
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-13
2025-04-13
2025-04-13
2025-04-12
2025-04-12
2025-04-11
2025-04-11
2025-04-10