AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


你想精通多国语言吗?借助本地大模型,开发一个跨语言翻译系统
发布日期:2024-10-14 18:54:58 浏览次数: 1558 来源:电子灵魂华


你是否还记得那些年为了四六级考试而奋斗的日子?

是否也曾羡慕那些能够说一口流利外语的人?

现在,有了AI翻译技术,我们也能轻松地掌握多国语言,让沟通无国界。

本文介绍借助本地大模型,开发一个跨语言翻译系统,花费大概4小时

功能:保持原有的音色,将你的说话语言翻译成其他语言

目前支持语言:
Chinese/English/Japanese/Cantonese/Korean(<|zh|en|jp|yue|ko)

实现方法通过集成SenseVoice、CosyVoice、本地大模型(qwen2:7b),完成语音翻译

首先将输入的语音通过Sensevoice转成文字,输入给大模型,转出目标语言文字,最后通过CosyVoice的多语言复刻模型转成目标语言语音,最后完成语音到语音的翻译

原理如下:

关于FunAudioLLM,请查看文章:
AI语音生成天花板,全网最实用,玩转ChatTTS&FunAudioLLM

关于如何下载和使用本地模型,请查看文章:本地知识库+本地大模型,借助RAGFlow搭建医院医疗问诊助手,纯本地,超实用!

关于语音识别SenseVoice

SenseVoice-Small模型部署了一个非自回归的端到端架构,从而实现了极低的推理延迟。由于与Whisper-Small模型的参数数量相似,它的推断速度比Whisper-Small快5倍以上,比Whisper-Large快15倍。

开发前准备

1完成本地大模型的下载和运行(qwen2:7b);
2代码下载;
3完成conda环境的安装部署

开发多语言翻译系统

使用方法

1 免费领取文件后,解压

  2 下载模型
      进入\FunAudioLLM\CosyVoice,
      执行download_model_script.py

或者解压公号领取的文件pretrained_models.rar

3 启动项目 进入FunAudioLLM\s2st,启动文件

python webui.py

4 开始使用

使用示例:

上传初始音频:

   翻译为英文


翻译为日语

或许你可能需要再进一步,将声音驱动口型,进一步创建自己的翻译数字人

那么你可以尝试查看以下音频驱动算法(EchoMimic)

使用EchoMimic算法生成肖像视频

(音频驱动图像算法)

通过可编辑的地标调节实现逼真的音频驱动的肖像动画 EchoMimic不仅能够通过单独的音频和面部标志生成人像视频,还能够通过音频和选定的面部标志的组合生成人像视频。

使用中英文驱动示例

支持音频驱动包括中文,英文版,唱歌(sing)等等,详情可去仓库具体查看

EchoMimic项目地址:https://github.com/BadToBest/EchoMimic EchoMimic主页地址:https://badtobest.github.io/echomimic.html

最后,

随着开源大模型的水平的逐渐提高,我们可以借助他做越来越多的事情

期待你发挥自己的想象力,开发更多属于自己的本地模型应用!


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询