我要投稿

【突发】OpenAI 推出GPT-4o mini模型：提供高性价比的智能体验

发布日期：2024-07-19 02:48:58 浏览次数： 2139

OpenAI推出GPT-4o Mini,这是其旗舰AI模型GPT-4o的一个更便宜、精简版本。 GPT-4o Mini旨在吸引更广泛的开发者和商业客户‍

该模型从今天开始向免费用户和付费的ChatGPT Plus和Team订阅用户开放,下周将向企业客户提供。 GPT-4o Mini将取代ChatGPT中的旧版GPT-3.5 Turbo模型。与完整版GPT-4o相比,Mini版提供部分相同功能,OpenAI计划随时间增加更多功能。GPT-4o Mini初期可处理和生成文本和图像,未来将能处理其他类型内容‍

这是OpenAI首个使用"指令层级"(instruction hierarchy)安全策略的AI模型,旨在使系统优先考虑某些指令(如来自公司的指令)

以下是OpenAI官宣全文：

GPT-4o mini: 提供高性价比的智能体验

2024年7月18日

推出我们最具性价比的小模型

OpenAI 致力于让智能尽可能地普及。今天，我们宣布推出 GPT-4o mini，这是我们最具性价比的小模型。我们预计，GPT-4o mini 将显著扩展基于 AI 构建的应用范围，使智能变得更加经济实惠。GPT-4o mini 在 MMLU（Massive Multi-task Language Understanding）上的得分为 82%，在 LMSYS 排行榜上的聊天偏好表现上目前优于 GPT-4。它的价格为每百万输入 Token（Token）15 美分和每百万输出 Token 60 美分，比之前的前沿模型便宜一个数量级，比 GPT-3.5 Turbo 便宜 60% 以上

GPT-4o mini 以其低成本和低延迟支持广泛的任务，例如链式或并行调用多个模型（例如调用多个 API）、向模型传递大量上下文（例如整个代码库或对话历史），或通过快速、实时的文本响应与客户互动（例如客户支持聊天机器人）‍

今天，GPT-4o mini 在 API 中支持文本和视觉，未来将支持文本、图像、视频和音频的输入和输出。该模型具有 128K Token 的上下文窗口和截至 2023 年 10 月的知识。感谢与 GPT-4o 共享的改进的分词器，处理非英语文本现在更加经济实惠‍

具有卓越文本智能和多模态推理的小模型

GPT-4o mini 在学术基准测试中超越了 GPT-3.5 Turbo 和其他小模型，在文本智能和多模态推理方面表现出色，并支持与 GPT-4o 相同的语言范围。它在函数调用方面也表现出色，这可以使开发人员构建能够从外部系统获取数据或执行操作的应用程序，并且与 GPT-3.5 Turbo 相比，其长上下文性能有所改善‍

GPT-4o mini 在多个关键基准测试中表现出色‍

推理任务：GPT-4o mini 在涉及文本和视觉的推理任务中优于其他小模型，在 MMLU（文本智能和推理基准测试）中的得分为 82.0%，而 Gemini Flash 为 77.9%，Claude Haiku 为 73.8%‍

数学和编码能力：GPT-4o mini 在数学推理和编码任务中表现出色，超过了市场上以前的小模型。在 MGSM（测量数学推理能力）中，GPT-4o mini 得分为 87.0%，而 Gemini Flash 为 75.5%，Claude Haiku 为 71.7%。在 HumanEval（测量编码性能）中，GPT-4o mini 得分为 87.2%，而 Gemini Flash 为 71.5%，Claude Haiku 为 75.9%‍

多模态推理：GPT-4o mini 在 MMMU（多模态推理评估）中也表现出色，得分为 59.4%，而 Gemini Flash 为 56.1%，Claude Haiku 为 50.2%

模型评估分数

作为我们模型开发过程的一部分，我们与一些可信的合作伙伴合作，以更好地了解 GPT-4o mini 的使用案例和局限性。我们与 Ramp 和 Superhuman 等公司合作，这些公司发现 GPT-4o mini 在从收据文件中提取结构化数据或在提供线程历史时生成高质量的电子邮件响应等任务上明显优于 GPT-3.5 Turbo

内置安全措施

安全从一开始就内置在我们的模型中，并在开发过程中的每一步都得到了强化。在预训练中，我们过滤了不希望模型学习或输出的信息，例如仇恨言论、成人内容、主要汇总个人信息的网站和垃圾邮件。在后训练中，我们使用人类反馈的强化学习 (RLHF)等技术使模型的行为与我们的政策保持一致，以提高模型响应的准确性和可靠性

GPT-4o mini 拥有与 GPT-4o 相同的安全缓解措施，我们使用自动和人工评估方法根据我们的准备框架和我们的自愿承诺仔细评估了这些措施。来自社会心理学和错误信息等领域的 70 多名外部专家测试了 GPT-4o，以识别潜在风险，我们已经解决了这些风险，并计划在即将发布的 GPT-4o 系统卡和准备评分卡中分享详细信息。这些专家评估的见解帮助改进了 GPT-4o 和 GPT-4o mini 的安全性

基于这些经验教训，我们的团队还使用我们的研究指导的新技术改进了 GPT-4o mini 的安全性。API 中的 GPT-4o mini 是第一个应用我们的指令层次结构方法的模型，该方法有助于提高模型抵御越狱、提示注入和系统提示提取的能力。这使模型的响应更加可靠，并有助于在大规模应用中更安全地使用。

我们将继续监控 GPT-4o mini 的使用情况，并在识别到新风险时改进模型的安全性。

可用性和定价

GPT-4o mini 现在作为文本和视觉模型在 Assistants API、Chat Completions API 和 Batch API 中提供。开发者支付每百万输入 Token 15 美分和每百万输出 Token 60 美分（大约相当于标准书籍中的 2500 页）。我们计划在接下来的几天内推出 GPT-4o mini 的微调。

在 ChatGPT 中，免费、Plus 和 Team 用户将从今天开始可以使用 GPT-4o mini 代替 GPT-3.5 Turbo。企业用户也将在下周开始访问这款模型，这与我们让 AI 惠及所有人的使命一致。