我要投稿

尝鲜测评：智谱AI语音大模型GLM-4-Voice好用不

发布日期：2024-10-25 18:50:28 浏览次数： 3303 作者：AI咨询圈

上半年以GPT4发布为代表，国内大模型陆续进行了一波模型产品升级后的近半年，各大模型厂商似乎进入了一个平静期。除了从大语言模型向图像模型、音乐模型、视频模型多模态拓展外，底座大模型的重大技术升级鲜有出现。

而伴随着OpenAI的o1产品的发布，大模型从快思考，从预训练预料中找答案的模式，向深度思考，模拟人类思维过程解决问题方向发展。

OpenAI的o1像是投到平静湖中的一颗石头，自o1发布后，国内的大模型厂商快速地活跃了起来，特别是Kimi和智谱这两家年轻的AI技术新秀。

Kimi的探索版，类似o1的深度思考模式，能够自主分解用户意图，处理更多的信息，解决更复杂的问题。

而智谱近期也陆续上新了不少重量级的新功能，包括：

1.GLM-4-Voice端到端语音模型发布，大模型具备了完整的感官系统，真正的理解人类情感语气并深度交流互动。——刚刚发布

2.AI深度搜索

3.可直接生成Excel文件

4.生成结果可编辑

今天重点介绍其刚刚发布的GLM-4-Voice端到端语音模型。通俗理解，就是大模型直接理解人类说话的内容，然后以语音对话输出，而不需要像过去要将语音转文本理解后，再转语音输出。

就在刚刚，智谱AI官方发布了GLM-4-Voice语音模型。是国内首个具有端到端高级语音（超拟人语音）能力的大模型产品。目前在智谱清言APP上已经可以使用。

GLM-4-Voice 模型具备直接理解和生成中英文语音的能力，能够根据用户指令灵活调整语音的情感、语调、语速及方言等特征，且具有更低的延时，支持实时打断，进一步提升交互体验。

和过去大模型的语音对话功能相比，GLM-4-Voice不再把文本转语音朗读的角色，而是能够真的听懂用户声音的大模型。

他具备以下4个主要特点：

情感表达和情感共鸣：模拟不同的情感和语调，如高兴、悲伤、生气、害怕等情绪，用合适的情绪语气进行回复。传统TTS（text-to-Speech）对话在情感表达上比较僵硬，声音缺少起伏和细腻的变化。
调节语速：在同一轮对话中，可以要求模型快点说 or 慢点说。
随时打断，灵活输入指令：根据实时的用户指令，调整语音输出的内容、风格和情感，支持更灵活的对话互动。例如，你可以随时打断 TA，让 TA 输出新的内容，更加符合日常对话情境。
多语言、多方言支持：目前 GLM-4-Voice 支持中英文语音以及中国各地方言，尤其擅长粤语、重庆话、北京话等。

以下是一段官方功能展示的视频：

技术原理方面，智谱解释为：与传统的 ASR + LLM + TTS 的级联方案相比，端到端模型以音频 token 的形式直接建模语音，在一个模型里面同时完成语音的理解和生成，避免了级联方案“语音转文字再转语音” 的中间过程中带来的信息损失，也解锁了更高的能力上限。