微信扫码
与创始人交个朋友
我要投稿
上半年以GPT4发布为代表,国内大模型陆续进行了一波模型产品升级后的近半年,各大模型厂商似乎进入了一个平静期。除了从大语言模型向图像模型、音乐模型、视频模型多模态拓展外,底座大模型的重大技术升级鲜有出现。
而伴随着OpenAI的o1产品的发布,大模型从快思考,从预训练预料中找答案的模式,向深度思考,模拟人类思维过程解决问题方向发展。
OpenAI的o1像是投到平静湖中的一颗石头,自o1发布后,国内的大模型厂商快速地活跃了起来,特别是Kimi和智谱这两家年轻的AI技术新秀。
Kimi的探索版,类似o1的深度思考模式,能够自主分解用户意图,处理更多的信息,解决更复杂的问题。
而智谱近期也陆续上新了不少重量级的新功能,包括:
1.GLM-4-Voice端到端语音模型发布,大模型具备了完整的感官系统,真正的理解人类情感语气并深度交流互动。——刚刚发布
2.AI深度搜索
3.可直接生成Excel文件
4.生成结果可编辑
今天重点介绍其刚刚发布的GLM-4-Voice端到端语音模型。通俗理解,就是大模型直接理解人类说话的内容,然后以语音对话输出,而不需要像过去要将语音转文本理解后,再转语音输出。
就在刚刚,智谱AI官方发布了GLM-4-Voice语音模型。是国内首个具有端到端高级语音(超拟人语音)能力的大模型产品。目前在智谱清言APP上已经可以使用。
GLM-4-Voice 模型具备直接理解和生成中英文语音的能力,能够根据用户指令灵活调整语音的情感、语调、语速及方言等特征,且具有更低的延时,支持实时打断,进一步提升交互体验。
情感表达和情感共鸣:模拟不同的情感和语调,如高兴、悲伤、生气、害怕等情绪,用合适的情绪语气进行回复。传统TTS(text-to-Speech)对话在情感表达上比较僵硬,声音缺少起伏和细腻的变化。
调节语速:在同一轮对话中,可以要求 模型快点说 or 慢点说。
随时打断,灵活输入指令:根据实时的用户指令,调整语音输出的内容、风格和情感,支持更灵活的对话互动。例如,你可以随时打断 TA,让 TA 输出新的内容,更加符合日常对话情境。
多语言、多方言支持:目前 GLM-4-Voice 支持中英文语音以及中国各地方言,尤其擅长粤语、重庆话、北京话等。
以下是一段官方功能展示的视频:
这个新模型实际使用效果如何呢?
我第一时间上手体验了智谱的这个新语音对话功能
使用下来,有以下个人的评价:
优点方面:
对话的流畅性、随时打断切换聊天内容的响应速度、对用于语音的理解力等方面的确有明显提升,更加的丝滑。
不足方面:
从产品功能的成熟度来看,个人认为这还只是一个雏形版本,离真正的沉浸式、高情感理解与表达的对话体验还有差距。比如:
生气、紧张、高兴、腼腆等不同的情绪表达上差异不是十分明显,表现力还不足;
对于方言,貌似小智还没学到位,试过让她用北京话、四川话、陕西话来说,发现基本还是普通话+方言词儿;
只有一种发音版本,缺少角色切换,实际的聊天语境中,必然是多种角色的,比如孩子、老人、男士、女士等,既然是高级语音对话,就应该能够灵活切换角色和语音。
虽然说智谱AI的GLM-4-Voice高级语音模型的使用体验还有不少槽点,但可以看到,大模型的进化速度,的确比我们想象的要快。
语音、图片、音频、视频、语音对话等多模型全面突破,人类感知世界的各种器官功能,AI逐渐全部具备,更好的理解人类世界之后,AI一定能够更好的思考和解决问题
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-08-13
2024-04-26
2024-08-21
2024-07-09
2024-06-13
2024-08-04
2024-04-11
2024-07-18
2024-07-01