AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


阿里发布开源语音交互模型 FunAudioLLM :各种语音黑科技一应俱全
发布日期:2024-07-09 08:18:02 浏览次数: 3697 来源:AI寒武纪





阿里发布超强语音处理模型FunAudioLLM,语音方向卷起来了,成熟度非常高,FunAudioLLM是一个旨在增强人与大语言模型 (LLMs) 之间自然语音交互的框架。其核心包括两个创新模型:SenseVoiceCosyVoice



SenseVoice专注于高精度的多语言语音识别、情感识别和音频事件检测,具备极低的延迟,支持超过50种语言


SenseVoice 是一种语音基础模型,具有多种语音理解功能,包括 ASR、LID、SER 和 AED。SenseVoice-Small 是一种仅编码器的语音基础模型,用于快速语音理解;SenseVoice-Large 是一种编码器-解码器语音基础模型,用于更准确的语音理解,支持更多的语言



CosyVoice则擅长自然语音生成,具备多语言、音色和情感控制能力,能够实现多语言语音生成、零样本语音生成、跨语言语音克隆和指令跟随功能



CosyVoice 包含一个自回归变换器,用于为输入文本生成相应的语音标记;一个基于 ODE 的扩散模型(流匹配),用于从生成的语音标记重建梅尔频谱;以及一个基于 HiFTNet 的声码器,用于合成波形。 虚线内的模块在特定的模型使用中是可选的,如跨语言、SFT 推断等



相关的SenseVoice和CosyVoice模型已在Modelscope和Huggingface上开源,其训练、推理和微调代码也已在GitHub上发布。通过将这些模型与LLMs结合,FunAudioLLM推动了语音交互技术的前沿,应用场景包括语音翻译、情感语音聊天、互动播客和富有表现力的有声读物叙述



实际表现



S2ST:语音到语音翻译



通过整合 SenseVoice、LLMs 和 CosyVoice,可以毫不费力地实现语音到语音的翻译 (Speech-to-Speech Translation),下面的例子是中文到英文,日语,韩语




情感语音聊天



通过整合 SenseVoice、LLMs 和 CosyVoice,开发一款情感语音聊天应用。在下面的例子中,用户和助理的内容都是由 CosyVoice 合成的






交互式播客



通过整合 SenseVoice(一个基于 LLM 的多代理系统,具有实时世界知识)和 CosyVoice,可以创建一个实时交互式播客




富有表现力的有声读物



通过 LLM 的分析能力来构建和识别书籍中的情感,并将其与 CosyVoice 相结合,可以实现具有更强表现力的有声读物



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询