AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


GPT-4o : 为什么大家用完都说好?
发布日期:2024-06-10 19:06:42 浏览次数: 1798


在标志性的2013年电影《她》中,主人公与一个语音人工智能系统发展出一段紧张的关系,最终演变成一段爱情。

《她》中的人工智能与当今的语音启用系统完全不同:它富有情感、幽默,并且能够理解人类对话的微妙之处。

在最近的一项重大公告中,OpenAI宣布推出了一种新版本的ChatGPT系统,该系统将语音、转录和智能集成到一个单一模型中。

它功能强大、直观且令人不安地类似于人类。本质上,OpenAI已经构建了《她》中的真实版本。

一个糟糕的交谈者 

ChatGPT已经拥有语音功能数月了。即使在今天,你也可以在手机上打开ChatGPT应用程序,点击耳机图标,用你的声音与系统交谈。

然而,问题是,ChatGPT是一个糟糕的交谈者。

基本上,ChatGPT的语音功能是通过将三种不同的模型拼接在一起创建的一个技巧。

当你对系统说话时,它首先会使用一个转录模型将你的声音转换为文本。然后,它会将该文本输入到其智能模型中——基本上是支持GPT-4的相同系统。

智能系统会生成文本,然后ChatGPT将其反馈到文本到语音系统中,以创建一个计算机化的声音来回应你。

这使得系统在名义上是交谈的,但实际上与它交谈是笨拙而尴尬的。

通过在不同模型之间发送内容的所有额外步骤意味着系统很卡顿。在我的测试中,我发现在对系统说话和得到回应之间通常需要3到5秒的时间。

人类对话依赖于在毫秒内展开的微妙之处。一个需要5秒才能回应语音的系统感觉笨重和机械。

之前的系统还缺乏许多人类语音的基本方面。

例如,你不能打断它;你必须等待它说完话才能回答。

与它交谈常常感觉像是在与那些在房间里没有意识到其他人的存在的人之一交谈,他们在胡言乱语地谈论一个随机话题。你有很多次试图让系统停止说话的欲望。

它还受到其无法解释声音中的情感或在自己的回应中准确模仿人类情感的限制。人类擅长读懂言外之意,部分原因是我们可以捕捉到说话者声音中微妙的情感线索。

如果我问我的朋友,“你今天过得怎么样?”他们回答,“还好”,但他们在“还”和“好”之间插入了一个微妙的停顿(或者最后一个词带有些许沮丧),我就知道他们实际上有一个充满挑战的一天,我应该问一些后续问题。

ChatGPT无法做到这些事情,这使得与它交谈感觉像是与某种外星智能进行交流,而不是人类。

简而言之,之前的系统完全掉入了反直觉谷。它在交谈方面做得足够好,声音也足够令人信服,以至于对话的部分感觉像是人类的。

但是奇怪的停顿、缺乏情感理解和延迟最终破坏了这种幻觉,使其显得更加令人不安而不是有用。

OpenAI的革命性新模型

OpenAI正在改变这一切。

GPT-4o原生集成了语音识别、语音生成和智能,构成了一个单一系统。

这意味着那种整合三种不同模型来模拟对话的混乱系统已经消失了。相反,ChatGPT的新版本将能够接收语音,即时处理它,并用自己生成的语音进行回复。

对用户来说,这将使得几项新功能成为可能,OpenAI的CEO Sam Altman将其描述为“像魔术一样”。

首先,你将能够更自然地与ChatGPT交流。你无需在界面中键入问题和后续问题,而是可以像与朋友交谈一样与应用程序交谈。

在几次实时演示中,OpenAI的工程师展示了系统如何在毫秒内听取用户的意见并以智能结果做出回应。

再次强调,这些速度是可能的,因为新模型不需要浪费时间切换模式 —— 它可以在一个步骤中处理语音并用自己的语音做出回应,而不是求助于多个低层次模型。

GPT-4o还可以解释和表达情感。

在一个演示中,一名OpenAI工作人员要求系统引导他进行呼吸练习。

然后,他假装过度呼吸,而ChatGPT —— 感知到他呼吸的速度以及他的声音中的明显恐慌 —— 劝他放慢速度并深呼吸。

该系统似乎还能调节其自己回应中的情感。在另一个演示中,工作人员要求GPT-4o用越来越戏剧化的声音读睡前故事。

它顺从了,最终听起来像一个中学戏剧学生可怕地过度演戏的场景!

由于新系统还与GPT-4的视觉功能集成,它可以解释一个人面部情绪等功能。

这种增强的情感智能水平很可能使得系统成为更好的交谈者。

其他新功能也将有所帮助。用户可以在GPT-4o说话中途打断。

在他们的演示中,OpenAI的工作人员经常在模型开始离题时打断它,就像打断朋友开始回答现实生活中的问题一样。

巨大的潜力

发布会上的演示轻松有趣。但是人们很快就能看到,一个可以轻松解释、快速处理并真实地创建情感丰富的人类语音的模型是非常强大的。

在演示期间,ChatGPT几次以类似《她》中的虚构AI的方式做出回应。

ChatGPT似乎在嘲笑自己,在OpenAI员工赞美它时感到尴尬,甚至偶尔会说一两句挑逗性的话。

几次(据称)非剧本化的互动还揭示了更深层次的能力,这些能力可以解锁更好的对话。

根据观众的提问,OpenAI的工作人员展示了系统如何听取意大利语言,并快速准确地将其翻译成英语,并反之亦然。

一个人很容易想象到这样的能力如何让多语言交流变得非常简单,基本上消除了语言障碍(也许还有人类翻译员)。

例如,医生可以随时使用ChatGPT快速与任何语言的患者交流。在旅行时,你可以在手机上打开应用程序,并将其用作免费即时翻译器,向别人询问方向或在商店购买商品。

通过添加视觉能力,甚至可以向ChatGPT展示外国餐厅菜单,询问某些项目的翻译,告诉它你喜欢在家吃饭的时间,并要求它推荐一些你可能想要订购(或避免)的菜肴。

OpenAI目前仍然不允许GPT-4o产生那种不适宜工作场合的互动。

但GPT-4o理解和模仿情感的能力,再加上它产生自己令人信服的人类情感速度的强大能力,令人印象深刻。

听完演示后,我确信人们会像《Her》中的主角一样爱上这个系统。它太好了。

结束语

如果OpenAI将GPT-4o整合到手机、汽车或像亚马逊Echo这样的智能设备的语音界面中,我很容易看到系统的情感能力变得更加有用。

即使人们并不想与ChatGPT交谈,但原生多模态音频和视觉模型的新能力对于构建基于OpenAI现有API的应用程序的开发者来说将是非常强大的。

在他们的声明中,OpenAI表示GPT-4o将通过他们现有的开发者界面提供。该系统还将比之前的GPT-4模型便宜50%。

这些变化本身就是巨大的。无论语音元素是否真正起飞,驱动它的智能也将使数百个现有的基于GPT-4的应用程序更加智能、更快、更好,而且更便宜。

换句话说,新系统的对话元素可能会成为一个很酷的噱头。但潜在的影响将更加微妙和广泛。

我很兴奋地看到现实生活中的用户如何与GPT-4o交互。他们会感到不安吗?惊讶吗?迷恋吗?

与机器交谈很酷。但一个能够理解人类情感,并且我可以用几行Python代码召唤的原生多模态人工智能模型,而且价格便宜,那真的可以改变世界。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询