我要投稿

OpenAI推出首个Nano模型：GPT-4.1 ，百万上下文、代码能力大幅超越GPT4.5

发布日期：2025-04-15 04:49:41 浏览次数： 1606 作者：AI寒武纪

OpenAI又放了个大招，正式在API中推出了全新的GPT-4.1系列模型！包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三款新成员

引入首个Nano模型：GPT-4.1 nano是OpenAI迄今最快、最便宜的模型，虽然小，但能力不俗（MMLU 80.1%, GPQA 50.3%），同样拥有100万Token上下文，非常适合需要低延迟的场景

目前GPT-4.1系列仅通过API提供

简单来说，这次更新的核心就是：代码能力大幅提升、指令遵循重大改进、成本极其便宜！

划重点

全面超越前辈：官方表示，新模型在各项能力上普遍优于之前的GPT-4o和GPT-4o mini，更重要的是，无论你需要多快的响应速度，这个新系列总能提供一个比以往模型在同等速度下性能更好的选项，全面提升了不同应用场景下的性能标杆，比如，需要极低延迟的，可以用 Nano，它比之前的低延迟模型性能更好；需要中等平衡的，可以用 Mini，它提供了新的更优平衡点；需要最高性能的，可以用 GPT-4.1，它在可接受延迟下性能更强

编程能力大幅跃升：在衡量真实世界软件工程任务的SWE-bench Verified基准上，GPT-4.1得分54.6%，比GPT-4o绝对提升了21.4%，甚至比GPT-4.5还高了26.6%！妥妥的编码利器

GPT-4.1 在前端编码方面也比 GPT-4o 有了显著提升，能够创建功能更强大、更美观的 Web 应用例如，让4.1制作一个单词卡web应用

指令遵循更可靠：在评估复杂指令遵循能力的Scale's MultiChallenge基准上，GPT-4.1得分38.3%，比GPT-4o绝对提升10.5%。这意味着它更能理解并执行你的复杂要求，尤其是在多轮对话中，能更好地追踪上下文信息

IFEval得分也从81.0%提升到87.4%（在 IFEval⁠ 中 ，模型必须生成符合各种指令的答案）

OpenAI内部开发的评估测试（困难提示遵循）

百万级Token上下文窗口：全系列（包括mini和nano）都支持高达100万Token的上下文窗口（之前GPT-4o是12.8万），处理超长文档、代码库不再是难题。而且，不是简单加长，长文本理解能力也同步增强，"大海捞针"测试（Needle in a Haystack）在100万Token范围内各位置都能精准找回信息

视觉理解新SOTA：GPT-4.1 系列在图像理解方面非常强大，尤其是 GPT-4.1 mini 代表了重大的飞跃

在 MMMU⁠ 中，模型可以回答包含图表、示意图、地图等复杂图像问题

在数学视觉任务中也很强大

解决科学论文中的图表能力表现：

在Video-MME（无字幕长视频理解）基准上，GPT-4.1取得了72.0% 的成绩，比GPT-4o提升了6.7%，创下新纪录

知识更新：知识库截止日期更新到了2024年6月

使用成本

模型	输入 (每百万Token)	缓存输入 (每百万Token)	输出 (每百万Token)	混合定价* (每百万Token)
gpt-4.1	$2.00	$0.50	$8.00	$1.84
gpt-4.1-mini	$0.40	$0.10	$1.60	$0.42
gpt-4.1-nano	$0.10	$0.025	$0.40	$0.12