我要投稿

腾讯MuseTalk：实时音唇同步虚拟数字人模型

发布日期：2024-05-23 06:39:06 浏览次数： 7643 作者：破狼

MuseTalk：实时高品质唇形同步与潜在空间修复

MuseTalk简介

腾讯音乐娱乐实验室开源了一个名为： MuseTalk的模型，这是一个实时高品质唇形同步模型。MuseTalk 可以与输入视频一起使用，例如由 MuseV 生成的视频（腾讯MuseV：无限长度和高保真虚拟人视频生成，ComfyUI使用指南），作为完整的虚拟数字人人解决方案。

MuseTalk 是一个实时高品质音频驱动的唇形同步模型，是在 ft-mse-vae 的潜在空间中进行训练，该模型：

1. 能够根据输入的音频修改未知的面部动作，面部区域大小为 256 x 256。
2. 支持中文、英文和日文等多种语言的音频。
3. 在 NVIDIA Tesla V100 上支持超过 30fps 的实时推理。
4. 支持修改面部区域中心点，这对生成结果有显著影响。
5. 在 HDTF 数据集上训练的模型checkpoint。

关于MuseV 和 MuseTalk 结合作为虚拟人生成的完整解决方案。建议首先使用 MuseV 生成一个视频（文本到视频、图像到视频或姿态到视频）。建议使用帧插值以增加帧率。然后，可以使用 MuseTalk 生成一个音唇同步视频。

MuseTalk模型

MuseTalk 是在潜在空间中进行训练，其中图像由冻结的 VAE 编码，音频由冻结的 whisper-tiny 模型编码。生成网络的架构借鉴了 stable-diffusion-v1-4 的 UNet，其中音频嵌入通过交叉注意力与图像嵌入融合。

注：尽管MuseTalk使用的架构与 Stable Diffusion 非常相似，但 MuseTalk 的独特之处在于它不是一个扩散模型。相反，MuseTalk 是通过在潜在空间中单步修复来操作。

MuseTalk演示案例

MuseV + MuseTalk 让人物照片栩栩如生！

01. Sit

输入图像：

null

MuseV：

MuseTalk：

02. Sun

输入图像：

null

MuseV：

MuseTalk：

视频配音

对于视频配音，官方团队应用了一个自行开发的工具识别说话的人物完成视频配音。下面展示视频对应原视频地址为：https://www.bilibili.com/video/BV1wT411b7HU

MuseTalk模型ComfyUI体验

当前社区已有对应的ComfyUI插件支持，插件地址为：https://github.com/chaojie/ComfyUI-MuseTalk。整体流程搭建比较复杂需要折腾好一阵才行，如果想快速体验和试用同学，推荐下载安装边城大佬的懒人安装包简单快速并且可控：

WEBUI整合包自取：夸克网盘链接：https://pan.quark.cn/s/410df2160388

ComfyUI插件安装步骤如下所示（模型和工作流已放置文末口令获取）：

• 通过ComfyUI插件管理器搜索ComfyUI-MuseTalk，并点击安装插件。

• 下载模型TMElyralab/MuseTalk，以及sd-vae-ft-mse，whisper,dwpose,face-parse-bisent,resnet18多个模型。由于模型较多，笔者已经按照目录结构整理放在文末网盘链接，只需要解压到对应位置即可。目录结构如下：

ComfyUI/models/diffusers/TMElyralab/MuseTalk/
├── musetalk
│   └── musetalk.json
│   └── pytorch_model.bin
├── dwpose
│   └── dw-ll_ucoco_384.pth
├── face-parse-bisent
│   ├── 79999_iter.pth
│   └── resnet18-5c106cde.pth
├── sd-vae-ft-mse
│   ├── config.json
│   └── diffusion_pytorch_model.bin
└── whisper
    └── tiny.pt

• 另外官方说默认情况会自动下载s3fd.pth文件，但似乎并未下载。如发现下列报错，需要手动将该模型放置在目录/ComfyUI/custom_nodes/ComfyUI-MuseTalk/musetalk/utils/face_detection/detection/sfd下。模型已放置在文末口令获取。

RuntimeError: unexpected EOF, expected 15021382 more bytes. The file might be corrupted.
Cannot import MuseTalk module for custom nodes: unexpected EOF, expected 15021382 more bytes. The file might be corrupted.

• 除了模型下载外，还需要手动安装如下依赖：

pip install --no-cache-dir -U openmim 
mim install mmengine 
mim install "mmcv>=2.0.1" 
mim install "mmdet>=3.1.0" 
mim install "mmpose>=1.1.0"

• 导入工作流并重启ComfyUI软件。

01.上春山

输入视频（MuseV）：

输出视频（MuseTalk）

02.变换英文歌曲

由于微信文章视频数量限制，以下案例就仅仅放置输出视频效果展示。

输出视频（MuseTalk）

03.不懂欣赏我

输出视频（MuseTalk）

附录

• github：https://github.com/TMElyralab/MuseTalk
• ComfyUI-MuseV：https://github.com/chaojie/ComfyUI-MuseTalk
• 模型和工作流：关注公众号私信口令【ComfyUI-MuseTalk】获取

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

伪装成浏览器的 AI Agent，好用吗？

2025-04-26

RAG比之MCP或长上下文LLM，要没落了吗？

2025-04-26

从 MCP 到项目管理，为什么“开放”成了新风向？

2025-04-25

国内首个云电脑 MCP！人人都能搞个 Manus？

2025-04-25

为什么一定要做Agent智能体？

2025-04-25

HR AI小科普——什么是MCP？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB