微信扫码
与创始人交个朋友
我要投稿
腾讯音乐娱乐实验室开源了一个名为: MuseTalk
的模型,这是一个实时高品质唇形同步模型。MuseTalk
可以与输入视频一起使用,例如由 MuseV
生成的视频(腾讯MuseV:无限长度和高保真虚拟人视频生成,ComfyUI使用指南),作为完整的虚拟数字人人解决方案。
MuseTalk
是一个实时高品质音频驱动的唇形同步模型,是在 ft-mse-vae
的潜在空间中进行训练,该模型:
1. 能够根据输入的音频修改未知的面部动作,面部区域大小为 256 x 256
。
2. 支持中文、英文和日文等多种语言的音频。
3. 在 NVIDIA Tesla V100 上支持超过 30fps
的实时推理。
4. 支持修改面部区域中心点,这对生成结果有 显著 影响。
5. 在 HDTF 数据集上训练的模型checkpoint。
关于MuseV
和 MuseTalk
结合作为虚拟人生成的完整解决方案。建议首先使用 MuseV
生成一个视频(文本到视频、图像到视频或姿态到视频)。建议使用帧插值以增加帧率。然后,可以使用 MuseTalk
生成一个音唇同步视频。
MuseTalk
是在潜在空间中进行训练,其中图像由冻结的 VAE 编码,音频由冻结的 whisper-tiny
模型编码。生成网络的架构借鉴了 stable-diffusion-v1-4
的 UNet,其中音频嵌入通过交叉注意力与图像嵌入融合。
注:尽管MuseTalk
使用的架构与 Stable Diffusion
非常相似,但 MuseTalk
的独特之处在于它不是一个扩散模型。相反,MuseTalk
是通过在潜在空间中单步修复来操作。
对于视频配音,官方团队应用了一个自行开发的工具识别说话的人物完成视频配音。下面展示视频对应原视频地址为:https://www.bilibili.com/video/BV1wT411b7HU
当前社区已有对应的ComfyUI
插件支持,插件地址为:https://github.com/chaojie/ComfyUI-MuseTalk。整体流程搭建比较复杂需要折腾好一阵才行,如果想快速体验和试用同学,推荐下载安装边城大佬的懒人安装包简单快速并且可控:
WEBUI整合包自取:夸克网盘链接:https://pan.quark.cn/s/410df2160388
ComfyUI
插件安装步骤如下所示(模型和工作流已放置文末口令获取):
• 通过ComfyUI
插件管理器搜索ComfyUI-MuseTalk
,并点击安装插件。
• 下载模型TMElyralab/MuseTalk
,以及sd-vae-ft-mse
,whisper
,dwpose
,face-parse-bisent
,resnet18
多个模型。由于模型较多,笔者已经按照目录结构整理放在文末网盘链接,只需要解压到对应位置即可。目录结构如下:
ComfyUI/models/diffusers/TMElyralab/MuseTalk/
├── musetalk
│ └── musetalk.json
│ └── pytorch_model.bin
├── dwpose
│ └── dw-ll_ucoco_384.pth
├── face-parse-bisent
│ ├── 79999_iter.pth
│ └── resnet18-5c106cde.pth
├── sd-vae-ft-mse
│ ├── config.json
│ └── diffusion_pytorch_model.bin
└── whisper
└── tiny.pt
• 另外官方说默认情况会自动下载s3fd.pth
文件,但似乎并未下载。如发现下列报错,需要手动将该模型放置在目录/ComfyUI/custom_nodes/ComfyUI-MuseTalk/musetalk/utils/
face_detection
/detection/sfd
下。模型已放置在文末口令获取。
RuntimeError: unexpected EOF, expected 15021382 more bytes. The file might be corrupted.
Cannot import MuseTalk module for custom nodes: unexpected EOF, expected 15021382 more bytes. The file might be corrupted.
• 除了 模型下载外,还需要手动安装如下依赖:
pip install --no-cache-dir -U openmim
mim install mmengine
mim install "mmcv>=2.0.1"
mim install "mmdet>=3.1.0"
mim install "mmpose>=1.1.0"
• 导入工作流并重启ComfyUI
软件。
• github:https://github.com/TMElyralab/MuseTalk
• ComfyUI-MuseV:https://github.com/chaojie/ComfyUI-MuseTalk
• 模型和工作流:关注公众号私信口令【ComfyUI-MuseTalk】获取
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-08-13
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19