微信扫码
与创始人交个朋友
我要投稿
你是否还记得那些年为了四六级考试而奋斗的日子?
是否也曾羡慕那些能够说一口流利外语的人?
现在,有了AI翻译技术,我们也能轻松地掌握多国语言,让沟通无国界。
本文介绍借助本地大模型,开发一个跨语言翻译系统,花费大概4小时
功能:保持原有的音色,将你的说话语言翻译成其他语言
目前支持语言:
Chinese/English/Japanese/Cantonese/Korean(<|zh|en|jp|yue|ko)
实现方法通过集成SenseVoice、CosyVoice、本地大模型(qwen2:7b),完成语音翻译
首先将输入的语音通过Sensevoice转成文字,输入给大模型,转出目标语言文字,最后通过CosyVoice的多语言复刻模型转成目标语言语音,最后完成语音到语音的翻译
原理如下:关于FunAudioLLM,请查看文章:
AI语音生成天花板,全网最实用,玩转ChatTTS&FunAudioLLM
关于如何下载和使用本地模型,请查看文章:本地知识库+本地大模型,借助RAGFlow搭建医院医疗问诊助手,纯本地,超实用!
关于语音识别SenseVoice
SenseVoice-Small模型部署了一个非自回归的端到端架构,从而实现了极低的推理延迟。由于与Whisper-Small模型的参数数量相似,它的推断速度比Whisper-Small快5倍以上,比Whisper-Large快15倍。
开发前准备
1完成本地大模型的下载和运行(qwen2:7b);
2代码下载;
3完成conda环境的安装部署
使用方法
1 免费领取文件后,解压
2 下载模型或者解压公号领取的文件pretrained_models.rar
3 启动项目 进入FunAudioLLM\s2st,启动文件
python webui.py
4 开始使用
使用示例:
上传初始音频:
翻译为英文或许你可能需要再进一步,将声音驱动口型,进一步创建自己的翻译数字人
那么你可以尝试查看以下音频驱动算法(EchoMimic)
(音频驱动图像算法)
通过可编辑的地标调节实现逼真的音频驱动的肖像动画 EchoMimic不仅能够通过单独的音频和面部标志生成人像视频,还能够通过音频和选定的面部标志的组合生成人像视频。
使用中英文驱动示例
支持音频驱动包括中文,英文版,唱歌(sing)等等,详情可去仓库具体查看
EchoMimic项目地址:https://github.com/BadToBest/EchoMimic EchoMimic主页地址:https://badtobest.github.io/echomimic.html
最后,
随着开源大模型的水平的逐渐提高,我们可以借助他做越来越多的事情
期待你发挥自己的想象力,开发更多属于自己的本地模型应用!
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-11
2024-07-11
2024-07-09
2024-09-18
2024-06-11
2024-07-23
2024-07-20
2024-07-12
2024-07-26
2024-07-23
2024-11-18
2024-11-16
2024-11-16
2024-10-31
2024-10-31
2024-10-27
2024-10-26
2024-10-25