我要投稿

OpenAI Realtime API: 助力开发者打造快速语音对话体验

发布日期：2024-10-07 10:35:05 浏览次数： 3155 作者：独立开发

OpenAI在今天凌晨发布宣布推出Realtime API的公开测试版，所有付费开发者都可以在他们的应用中构建快速的语音对话体验。该API支持六种预设语音，类似于ChatGPT的高级语音模式，使自然的语音对话成为可能。

此外，Chat Completions API也新增了音频输入和输出功能，支持不需要低延迟的用例，开发者可以通过单次API调用，将文本或音频输入GPT-4o，获得文本或音频的响应。

当然Realtime API的价格很高，我在这里总结一下官方的文章给大家一个参考，大家可以借着这个势头去思考自己的产品方向，我也相信OpenAI作为领头羊，会有更多厂商推出廉价的实时语音API，届时大家可以将自己的产品切到更便宜的API以寻求更大的ROI。

独立开发者应用场景

在创建语音助手时，开发者通常需要将音频转录为文本，再将其输入至文本模型进行推理，最后通过文本转语音模型输出。这一过程常常导致情感和重音的丧失，同时存在可感知的延迟。而Realtime API通过直接流式传输音频输入和输出，显著提升了对话的自然性，能够自动处理打断，类似于ChatGPT的高级语音模式。

例如，Healthify(https://openai.com/index/healthify/) 应用利用Realtime API与AI教练Ria进行自然对话，而Speak语言学习App则通过该API的角色扮演功能，鼓励用户练习新语言。现在，开发者不再需要将多个模型结合在一起，而可以通过一个API调用来实现自然的对话体验。

随着Realtime API的推出，开发者可以轻松构建低延迟的多模态应用，提升用户体验。无论是教育软件还是客户支持，Realtime API将简化语音交互的实现过程，为独立开发者带来新的机遇和灵感。比如，大家可以思考自己已经存在的文本App可否因此扩展语音功能，或者类似上述提到的语言产品。

定价

Realtime API目前只面向付费开发者，其音频功能基于新模型GPT-4o gpt-4o-realtime-preview。而Chat Completions API的音频功能将使用新的模型gpt-4o-audio-preview，在未来几周内发布，开发者可以输入文本或音频，并生成文本、音频。

Realtime API的定价很高，Realtime API同时使用文本token和音频toekn。文本输入token的费用为$5/M，输出token为$20/M。音频输入的费用约为每分钟0.06美元，而音频输出的费用约为每分钟0.24美元。Chat Completions API的音频定价与此相同。

安全与隐私

Realtime API采用多层次的安全保护措施，以减轻API滥用的风险，包括自动监测和对标记的模型输入与输出进行人工审查。该API基于与ChatGPT高级语音模式相同的GPT-4o版本，OpenAI对其进行了全面评估，使用了自动化和人工评估相结合的方法，包括根据OpenAI的准备框架进行的评估，详见GPT-4o系统卡。Realtime API还利用了OpenAI为高级语音模式构建的相同音频安全基础设施，测试结果显示，这有效降低了潜在的伤害风险。

如何上手体验

开发者可以在接下来的几天内开始使用Realtime API

Playground：https://platform.openai.com/playground/realtime

官方文档：https://platform.openai.com/docs/guides/realtime

OpenAI还与LiveKit和Agora合作，创建了音频组件的客户端库，包括回声消除、重连和声音隔离功能。同时，还与Twilio合作，将Realtime API与Twilio的语音API集成，使开发者能够无缝构建、部署和通过语音呼叫连接AI虚拟代理与客户。通过这些资源，开发者能够高效地开发出创新的语音应用。建议感兴趣的独立开发者去了解一下，可能会有潜在的机会哦。

Realtime API的未来发展方向

在向全面可用性迈进的过程中，OpenAI积极收集反馈以改进Realtiem API。计划引入的一些新功能包括：

多模态支持：Realtime API将首先支持语音，并计划逐步添加视觉和视频等其他模式。
提高速率限制：目前API对于Tier 5开发者限制为约100个并发会话，Tier 1-4的限制更低。OpenAI将逐步提高这些限制，以支持更大规模的部署。
官方SDK支持：OpenAI将把Realtime API的支持集成到OpenAI的Python和Node.js SDK中。
提示缓存：将支持提示缓存功能，以便以折扣价格重新处理先前的对话回合。
扩展模型支持：Realtime API将在未来版本中支持GPT-4o mini。