我要投稿

GPT-4o实时语音功能开始推送；GPT-4o 64K输出版本发布！

发布日期：2024-08-01 08:01:18 浏览次数： 2690

作者：AI信息Gap

微信搜一搜，关注“AI信息Gap”

一、GPT-4o实时语音功能开始推送

上周我在《Sam Altman亲自确认：下周开始推送GPT-4o实时语音功能！》这篇文章里预告过GPT-4o模型的实时语音功能即将开启alpha版本内侧，现在，它来了。

北美时间7月30日下午，OpenAI官方宣布正式开始向“小部分”ChatGPT Plus用户推送实时语音功能，即Advanced Voice Mode。需要注意的是，此次仅是alpha版本的内测，所以OpenAI强调了是“a small group”，可以推测这次的推送量并没有多少，除非是天选之子，否则很难被选中。我自己的两个账号，以及周围的朋友们均没有被推送到这个新功能。

如何知道自己是否被选中参加这次内测？OpenAI官方表示首先会收到一封相关邮件，邮件里会有详细的说明。除此之外，最简单的验证方法就是打开ChatGPT app，如果被推送到GPT-4o实时语音功能在app首页就会有提示，打开语音模式会在页面顶部显示“Advanced (alpha)”字样。

并且，OpenAI官方确认会持续增加内测推送，并于今年秋季向所有Plus付费会员推送这个新功能。

针对GPT-4o实时语音功能，OpenAI与100多名外部的红队测试人员一起进行了安全测试，涉及45种语言。预设的声音有4种，应该和当前ChatGPT app里语音模式的4种声音一致，分别是Cove，Breeze，Juniper和Ember。

其实从最新版本ChatGPT app关于实时语音功能的提示语也能看出最新的动态。

Advanced Voice Mode is on its way
Our rollout of advanced Voice Mode has started, and we're slowly enrolling users in the alpha to ensure the quality of the experience. All Plus users will have access by the end of fall — we'll let you know as soon as you're in.

而截至上周，提示语是这样的：

二、`gpt-4o-64k-output-alpha`模型发布

OpenAI于近日发布了一款全新的名为gpt-4o-64k-output-alpha的GPT-4o模型，其输出长度拓展到了64K tokens。目前该模型API价格为6美元每1百万输入tokens，18美元每1百万输出tokens。

这里值得一提的是，输出长度和上下文长度是两个不同但相关的概念。

输出长度指的是模型在生成文本时，能够输出的最大token数量。对于gpt-4o-64k-output-alpha模型而言，其输出长度达到了64K tokens。这意味着，在单次生成文本的过程中，模型最多可以生成64K个token，这在处理长篇文档、复杂对话以及需要详细解释的任务时，具有显著优势。

上下文长度则指的是模型在处理输入时，可以考虑的最大token数量。这包括了用户输入的文本以及模型自身生成的文本。在上下文长度内，模型能够保留之前的所有信息，并在此基础上进行生成。上下文长度越大，模型能够保持的历史信息就越多，从而在长对话和复杂任务中提供更连贯和一致的回应。

以2024年5月13日发布的GPT-4o模型（gpt-4o-2024-05-13）为例，其拥有128K tokens的上下文长度，但输出长度仅有4096 tokens，也即意味着之前的GPT-4o模型只能生成最大程度为4096 tokens的内容。本次更新的gpt-4o-64k-output-alpha模型则是在输出长度上做出了改进，最大输出长度达到了64K tokens，差不多是原来的15倍之多。