AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


腾讯MuseTalk:实时音唇同步虚拟数字人模型
发布日期:2024-05-23 06:39:06 浏览次数: 3890


MuseTalk:实时高品质唇形同步与潜在空间修复

MuseTalk简介

腾讯音乐娱乐实验室开源了一个名为: MuseTalk的模型,这是一个实时高品质唇形同步模型MuseTalk 可以与输入视频一起使用,例如由 MuseV 生成的视频(腾讯MuseV:无限长度和高保真虚拟人视频生成,ComfyUI使用指南),作为完整的虚拟数字人人解决方案。

MuseTalk 是一个实时高品质音频驱动的唇形同步模型,是在 ft-mse-vae 的潜在空间中进行训练,该模型:

  1. 1. 能够根据输入的音频修改未知的面部动作,面部区域大小为 256 x 256

  2. 2. 支持中文、英文和日文等多种语言的音频。

  3. 3. 在 NVIDIA Tesla V100 上支持超过 30fps 的实时推理。

  4. 4. 支持修改面部区域中心点,这对生成结果有 显著 影响。

  5. 5. 在 HDTF 数据集上训练的模型checkpoint。

关于MuseV 和 MuseTalk 结合作为虚拟人生成的完整解决方案。建议首先使用 MuseV 生成一个视频(文本到视频、图像到视频或姿态到视频)。建议使用帧插值以增加帧率。然后,可以使用 MuseTalk 生成一个音唇同步视频。

MuseTalk模型

MuseTalk 是在潜在空间中进行训练,其中图像由冻结的 VAE 编码,音频由冻结的 whisper-tiny 模型编码。生成网络的架构借鉴了 stable-diffusion-v1-4 的 UNet,其中音频嵌入通过交叉注意力与图像嵌入融合。

注:尽管MuseTalk使用的架构与 Stable Diffusion 非常相似,但 MuseTalk 的独特之处在于它不是一个扩散模型。相反,MuseTalk 是通过在潜在空间中单步修复来操作。

MuseTalk演示案例

MuseV + MuseTalk 让人物照片栩栩如生!

01. Sit

输入图像:

MuseV:

MuseTalk:

02. Sun

输入图像:

MuseV:

MuseTalk:

视频配音

对于视频配音,官方团队应用了一个自行开发的工具识别说话的人物完成视频配音。下面展示视频对应原视频地址为:https://www.bilibili.com/video/BV1wT411b7HU

MuseTalk模型ComfyUI体验

当前社区已有对应的ComfyUI插件支持,插件地址为:https://github.com/chaojie/ComfyUI-MuseTalk。整体流程搭建比较复杂需要折腾好一阵才行,如果想快速体验和试用同学,推荐下载安装边城大佬懒人安装包简单快速并且可控:

WEBUI整合包自取:夸克网盘链接:https://pan.quark.cn/s/410df2160388

ComfyUI插件安装步骤如下所示(模型和工作流已放置文末口令获取):

  • • 通过ComfyUI插件管理器搜索ComfyUI-MuseTalk,并点击安装插件。

  • • 下载模型TMElyralab/MuseTalk,以及sd-vae-ft-msewhisper,dwpose,face-parse-bisent,resnet18多个模型。由于模型较多,笔者已经按照目录结构整理放在文末网盘链接,只需要解压到对应位置即可。目录结构如下:

ComfyUI/models/diffusers/TMElyralab/MuseTalk/
├── musetalk
│   └── musetalk.json
│   └── pytorch_model.bin
├── dwpose
│   └── dw-ll_ucoco_384.pth
├── face-parse-bisent
│   ├── 79999_iter.pth
│   └── resnet18-5c106cde.pth
├── sd-vae-ft-mse
│   ├── config.json
│   └── diffusion_pytorch_model.bin
└── whisper
    └── tiny.pt

• 另外官方说默认情况会自动下载s3fd.pth文件,但似乎并未下载。如发现下列报错,需要手动将该模型放置在目录/ComfyUI/custom_nodes/ComfyUI-MuseTalk/musetalk/utils/face_detection/detection/sfd下。模型已放置在文末口令获取

RuntimeError: unexpected EOF, expected 15021382 more bytes. The file might be corrupted.
Cannot import MuseTalk module for custom nodes: unexpected EOF, expected 15021382 more bytes. The file might be corrupted.
  • • 除了 模型下载外,还需要手动安装如下依赖:

pip install --no-cache-dir -U openmim 
mim install mmengine 
mim install "mmcv>=2.0.1" 
mim install "mmdet>=3.1.0" 
mim install "mmpose>=1.1.0" 
  • • 导入工作流并重启ComfyUI软件。

01.上春山

输入视频(MuseV):

输出视频(MuseTalk)

02.变换英文歌曲

由于微信文章视频数量限制,以下案例就仅仅放置输出视频效果展示。

输出视频(MuseTalk)

03.不懂欣赏我

输出视频(MuseTalk)

附录

  • • github:https://github.com/TMElyralab/MuseTalk

  • • ComfyUI-MuseV:https://github.com/chaojie/ComfyUI-MuseTalk

  • • 模型和工作流:关注公众号私信口令【ComfyUI-MuseTalk】获取



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询