我要投稿

OpenAI开发者日：实时API、模型蒸馏、视觉微调重磅发布！

发布日期：2024-10-02 07:10:07 浏览次数： 2301 作者：AI寒武纪

OpenAI DevDay 绝对是开发者们的狂欢！? Sam Altman 这次火力全开，一口气发布了一堆重磅更新，从 ChatGPT 的高级语音功能到全新的 Realtime API，再到模型蒸馏、视觉微调和 Playground 新功能，简直让人眼花缭乱！

前方高能预警，划重点时间到！

ChatGPT 高级语音功能全球上线！

所有 ChatGPT 企业版、教育版和团队版用户现在都可以使用高级语音功能了！普通 Plus 和 Free 用户也能尝鲜高级语音功能了！? （欧盟、英国、瑞士、冰岛、挪威和列支敦士登的用户还要再等等）最新版 ChatGPT App 才能体验哦！

实时 API (Realtime API) 测试版发布，这应该是整个dev day发布的最重磅的功能！

开发者现在可以用 OpenAI 的 API 在自己的应用中构建低延迟、多模态的语音对话体验，就像 ChatGPT 的高级语音模式一样！? 测试版面向所有付费开发者开放， 使用的模型是 gpt-4o-realtime-preview。通过 WebSocket 持久连接与 GPT-4o 交换信息，支持函数调用，让语音助手更强大！ 相比于之前的多模型串联方式，Realtime API 能够提供更自然的对话体验，还能像 ChatGPT 的高级语音模式一样自动处理中断

Realtime API 的发布意义重大，你可以打造自己的实时语音对话功能了！再也不需要像以前先 Whisper 转录，ChatGPT 生成，再文本转语音。它标志着 OpenAI 在 AI 应用领域迈出了重要一步，并可能对未来 AI 应用的交互方式产生深远的影响

不过价钱不算便宜，但也可以接受，每分钟音频输入大约 0.06 美元，音频输出约 0.24 美元。不考虑输入，10 分钟的输出音频就是 3 美元

以下是我认为 Realtime API 最重要的意义：

1. 解锁实时交互体验： 之前的 API 调用模式是“请求-响应”式的，用户需要等待模型处理完请求后再给出响应，这在某些场景下会造成延迟，影响用户体验。Realtime API 通过 WebSocket 实现了实时双向通信，让 AI 应用能够像人类一样进行实时对话，极大地提升了用户体验，例如在语音助手、在线教育、游戏等场景中，实时交互至关重要
2. 降低开发门槛，促进 AI 应用创新： 以前，开发者要构建语音对话应用，需要将语音识别、文本生成和语音合成等多个模型串联起来，开发流程复杂，难度较高。Realtime API 简化了开发流程，开发者只需调用一个 API 就能实现语音对话功能，这将大大降低 AI 应用的开发门槛，并促进 AI 应用的创新。开发者可以更专注于应用逻辑和用户体验的设计，而无需担心底层技术的复杂性
3. 拓展 AI 应用场景： Realtime API 的实时交互能力，为 AI 应用开辟了更广阔的应用场景。除了语音助手和在线教育，它还可以应用于游戏、虚拟现实、增强现实等领域，例如，在游戏中，AI 可以作为 NPC 与玩家进行实时对话；在 VR/AR 中，AI 可以作为虚拟人物与用户进行互动
4. 推动 AI 技术发展： Realtime API 的发布，也促进了 AI 技术本身的发展。为了实现实时交互，OpenAI 需要不断优化模型的推理速度和效率，并改进 AI 的自然语言理解和生成能力。这将推动 AI 技术朝着更强大、更智能的方向发展。

聊天补全 API (Chat Completions API) 新增音频输入和输出功能，让你的应用“能听会说”

开发者现在可以向 GPT-4o 输入文本或音频，并让模型以文本、音频或两者结合的方式进行回复。这项功能将在未来几周内推出， 使用的模型是 gpt-4o-audio-preview。无需复杂的模型组合，一个 API 调用就能搞定！ 虽然速度比不上 Realtime API，但对于那些对延迟要求不高的应用来说，Chat Completions API 的音频功能也足够用了

Prompt Caching 功能上线，省钱省时

模型现在可以复用最近见过的输入 token，这样可以将更多缓存的上下文添加到模型中，价格还能打五折，而且不影响延迟！ ? 该功能适用于 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 的最新版本，以及它们的微调版本。 API 调用会自动缓存超过 1024 个 token 的提示，并以 128 个 token 为增量递增。缓存通常在 5-10 分钟不活动后清除，并且会在上次使用后一小时内清除。API 响应中的 usage 字段会包含 cached_tokens 值，方便开发者监控缓存使用情况。 这项功能对于那些需要重复使用相同上下文的应用来说，简直是福音，例如代码库编辑和多轮聊天机器人

模型蒸馏 (Model Distillation) 工作流上线，轻松打造高性价比模型！

开发者现在可以直接在 OpenAI 平台上使用 o1-preview 和 GPT-4o 等前沿模型的输出来微调更经济高效的模型，例如 GPT-4o mini。 这将简化模型蒸馏的流程，减少手动操作和错误，让开发者可以更专注于模型性能的提升。 模型蒸馏允许开发者使用功能更强大的模型的输出来微调更小、更经济的模型，从而让它们能够以更低的成本在特定任务上达到与高级模型相当的性能。之前，蒸馏是一个多步骤、容易出错的过程，需要开发者手动协调多个不相关的工具，从生成数据集到微调模型再到测量性能改进。由于蒸馏本质上是迭代的，因此开发者需要重复运行每个步骤，这会增加大量的工作量和复杂性。OpenAI 的新模型蒸馏套件解决了这个问题

• 存储的补全 (Stored Completions)： 开发者可以通过 API 自动捕获和存储模型生成的输入-输出对，轻松构建用于蒸馏的数据集。这项功能是免费的！ 通过在聊天补全 API 中设置 store:true 标志，就可以自动存储这些输入-输出对，而且不会影响延迟
• 评估 (Evals) 测试版： 开发者可以在 OpenAI 平台上创建和运行自定义评估，以衡量模型在特定任务上的性能。在年底之前，如果开发者选择与 OpenAI 共享他们的评估结果（用于改进和评估未来的模型），他们每周可以免费运行最多 7 次评估。 Evals 还可以独立于微调来定量评估模型在你的用例中的性能

GPT-4o 视觉微调功能上线，让你的 AI “看懂” 世界！

开发者现在可以用图像和文本对 GPT-4o 进行微调，以提高其视觉理解能力，例如增强视觉搜索功能、改进自动驾驶或智能城市的目标检测，以及更准确的医学图像分析。 OpenAI 与 Grab、Automat 和 Coframe 等合作伙伴进行了测试， 结果表明视觉微调可以显著提高 GPT-4o 在图像理解和代码生成等任务上的性能。 到 10 月 31 日之前，每天可以免费使用 100 万个训练 token。 微调后的模型完全由你控制，你拥有你的业务数据的完全所有权。OpenAI 不会未经你的明确许可而使用你在服务中使用的输入或输出来训练他们的模型。图像输入首先根据图像大小进行标记化，然后以与文本输入相同的每标记速率进行定价

Playground 新功能，快速构建原型！

Playground 现在可以根据你的描述自动生成提示和模式，让你快速构建原型！

OpenAI o1 API 扩展访问权限和提高速率限制！

o1 API 现在对更多开发者开放 (包括使用级别 3 的开发者)，速率限制也提高到了与 GPT-4o 相同的水平，方便开发者构建生产就绪的应用。 具体速率限制如下：

- 5 级：o1-preview：10,000 个请求/分钟；o1-mini：30,000 个请求/分钟
- 4 级：o1-preview 和 o1-mini：10,000 个请求/分钟
- 3 级：o1-preview 和 o1-mini：5,000 个请求/分钟

OpenAI 还提供了一些实用工具和服务：

• 与 LiveKit 和 Agora 合作创建了音频组件的客户端库，例如回声消除、重新连接和声音隔离
• 与 Twilio 合作，将 Realtime API 与 Twilio 的语音 API 集成，使开发者能够通过语音呼叫无缝地构建、部署 AI 虚拟座席并将其连接到客户

OpenAI 计划为 Realtime API 和其他功能引入更多更新，包括：

更多模态： 除了语音，还将支持视觉和视频等模态

更高的速率限制： 将逐步提高速率限制，以支持更大规模的部署

官方 SDK 支持： 将集成对 Realtime API 的支持到 OpenAI Python 和 Node.js SDK 中

扩展模型支持： 将在未来的版本中支持 GPT-4o mini

提示缓存： 将添加对提示缓存的支持

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-27

为什么新手比专家更想做垂直领域SFT微调？

2025-04-27

使用MCP进行AI集成的6大理由

2025-04-27

大模型微调技术全景解析：从理论到企业级实践（Python实战增强版）

2025-04-27

主流 Embedding 模型对比

2025-04-26

从原理到示例：Java开发玩转MCP

2025-04-26

LLM 微调的学习动力学：幻觉、挤压与优化的艺术（万字长文，实战解读）

2025-04-26

8 卡 H100 大模型训练环境部署文档

2025-04-25

DeepSeek + Dify 企业级大模型私有化部署指南

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

为什么新手比专家更想做垂直领域SFT微调？

2025-04-27

为什么全参数微调能让大模型从“通才”变“专才”？

2025-04-23

MCP vs Function Calling，该如何选？

2025-04-20

RAGFlow vs Dify, 商业化落地场景选哪个？

2025-04-01

如何利用Dify轻松构建你的专属语料库？

2025-03-31

从 0 到 1，Agentic Ops 如何打造企业级 AI 生产力？

2025-03-20

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

部署DeepSeek的4条路，企业级客户到底该咋走？

2025-03-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB