腾讯MuseTalk：实时音唇同步虚拟数字人模型

显示全部楼层

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin-right: auto;margin-bottom: 1em;margin-left: auto;padding-right: 1em;padding-left: 1em;border-bottom: 2px solid rgb(250, 81, 81);color: rgb(63, 63, 63);">MuseTalk：实时高品质唇形同步与潜在空间修复

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(250, 81, 81);color: rgb(255, 255, 255);">MuseTalk简介

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">腾讯音乐娱乐实验室开源了一个名为：MuseTalk的模型，这是一个实时高品质唇形同步模型。MuseTalk可以与输入视频一起使用，例如由MuseV生成的视频（腾讯MuseV：无限长度和高保真虚拟人视频生成，ComfyUI使用指南），作为完整的虚拟数字人人解决方案。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">MuseTalk是一个实时高品质音频驱动的唇形同步模型，是在ft-mse-vae的潜在空间中进行训练，该模型：

1.能够根据输入的音频修改未知的面部动作，面部区域大小为256 x 256。
2. 支持中文、英文和日文等多种语言的音频。
3.在 NVIDIA Tesla V100 上支持超过30fps的实时推理。
4.支持修改面部区域中心点，这对生成结果有显著影响。
5. 在 HDTF 数据集上训练的模型checkpoint。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">关于MuseV和MuseTalk结合作为虚拟人生成的完整解决方案。建议首先使用MuseV生成一个视频（文本到视频、图像到视频或姿态到视频）。建议使用帧插值以增加帧率。然后，可以使用MuseTalk生成一个音唇同步视频。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.1em;font-weight: bold;margin-top: 2em;margin-right: 8px;margin-bottom: 0.75em;padding-left: 8px;border-left: 3px solid rgb(250, 81, 81);color: rgb(63, 63, 63);">MuseTalk模型

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">MuseTalk是在潜在空间中进行训练，其中图像由冻结的 VAE 编码，音频由冻结的whisper-tiny模型编码。生成网络的架构借鉴了stable-diffusion-v1-4的 UNet，其中音频嵌入通过交叉注意力与图像嵌入融合。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">注：尽管MuseTalk使用的架构与Stable Diffusion 非常相似，但MuseTalk的独特之处在于它不是一个扩散模型。相反，MuseTalk是通过在潜在空间中单步修复来操作。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(250, 81, 81);color: rgb(255, 255, 255);">MuseTalk演示案例

MuseV + MuseTalk 让人物照片栩栩如生！

01. Sit

输入图像：

null

MuseV：

MuseTalk：

02. Sun

输入图像：

null

MuseV：

MuseTalk：

视频配音

对于视频配音，官方团队应用了一个自行开发的工具识别说话的人物完成视频配音。下面展示视频对应原视频地址为：https://www.bilibili.com/video/BV1wT411b7HU

MuseTalk模型ComfyUI体验

当前社区已有对应的ComfyUI插件支持，插件地址为：https://github.com/chaojie/ComfyUI-MuseTalk。整体流程搭建比较复杂需要折腾好一阵才行，如果想快速体验和试用同学，推荐下载安装边城大佬的懒人安装包简单快速并且可控：

WEBUI整合包自取：夸克网盘链接：https://pan.quark.cn/s/410df2160388

ComfyUI插件安装步骤如下所示（模型和工作流已放置文末口令获取）：

•通过ComfyUI插件管理器搜索ComfyUI-MuseTalk，并点击安装插件。

•下载模型TMElyralab/MuseTalk，以及sd-vae-ft-mse，whisper,dwpose,face-parse-bisent,resnet18多个模型。由于模型较多，笔者已经按照目录结构整理放在文末网盘链接，只需要解压到对应位置即可。目录结构如下：

ComfyUI/models/diffusers/TMElyralab/MuseTalk/
├──musetalk
│└──musetalk.json
│└──pytorch_model.bin
├──dwpose
│└──dw-ll_ucoco_384.pth
├──face-parse-bisent
│├──79999_iter.pth
│└──resnet18-5c106cde.pth
├──sd-vae-ft-mse
│├──config.json
│└──diffusion_pytorch_model.bin
└──whisper
└──tiny.pt

•另外官方说默认情况会自动下载s3fd.pth文件，但似乎并未下载。如发现下列报错，需要手动将该模型放置在目录/ComfyUI/custom_nodes/ComfyUI-MuseTalk/musetalk/utils/face_detection/detection/sfd下。模型已放置在文末口令获取。

RuntimeError:unexpectedEOF,expected15021382morebytes.Thefilemightbecorrupted.
CannotimportMuseTalkmoduleforcustomnodes:unexpectedEOF,expected15021382morebytes.Thefilemightbecorrupted.

•除了模型下载外，还需要手动安装如下依赖：

pipinstall--no-cache-dir-Uopenmim
miminstallmmengine
miminstall"mmcv>=2.0.1"
miminstall"mmdet>=3.1.0"
miminstall"mmpose>=1.1.0"

•导入工作流并重启ComfyUI软件。

01.上春山

输入视频（MuseV）：

输出视频（MuseTalk）

02.变换英文歌曲

由于微信文章视频数量限制，以下案例就仅仅放置输出视频效果展示。

输出视频（MuseTalk）

03.不懂欣赏我

输出视频（MuseTalk）

附录

• github：https://github.com/TMElyralab/MuseTalk
• ComfyUI-MuseV：https://github.com/chaojie/ComfyUI-MuseTalk
• 模型和工作流：关注公众号私信口令【ComfyUI-MuseTalk】获取