ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin-right: auto;margin-bottom: 1em;margin-left: auto;padding-right: 1em;padding-left: 1em;border-bottom: 2px solid rgb(250, 81, 81);color: rgb(63, 63, 63);">MuseTalk:实时高品质唇形同步与潜在空间修复ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(250, 81, 81);color: rgb(255, 255, 255);">MuseTalk简介ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">腾讯音乐娱乐实验室开源了一个名为:MuseTalk的模型,这是一个实时高品质唇形同步模型。MuseTalk可以与输入视频一起使用,例如由MuseV生成的视频(腾讯MuseV:无限长度和高保真虚拟人视频生成,ComfyUI使用指南),作为完整的虚拟数字人人解决方案。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">MuseTalk是一个实时高品质音频驱动的唇形同步模型,是在ft-mse-vae的潜在空间中进行训练,该模型: ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 1em;color: rgb(63, 63, 63);" class="list-paddingleft-1">1.能够根据输入的音频修改未知的面部动作,面部区域大小为256 x 256。 2. 支持中文、英文和日文等多种语言的音频。 3.在 NVIDIA Tesla V100 上支持超过30fps的实时推理。 4.支持修改面部区域中心点,这对生成结果有显著影响。 5. 在 HDTF 数据集上训练的模型checkpoint。 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">关于MuseV和MuseTalk结合作为虚拟人生成的完整解决方案。建议首先使用MuseV生成一个视频(文本到视频、图像到视频或姿态到视频)。建议使用帧插值以增加帧率。然后,可以使用MuseTalk生成一个音唇同步视频。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.1em;font-weight: bold;margin-top: 2em;margin-right: 8px;margin-bottom: 0.75em;padding-left: 8px;border-left: 3px solid rgb(250, 81, 81);color: rgb(63, 63, 63);">MuseTalk模型ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">MuseTalk是在潜在空间中进行训练,其中图像由冻结的 VAE 编码,音频由冻结的whisper-tiny模型编码。生成网络的架构借鉴了stable-diffusion-v1-4的 UNet,其中音频嵌入通过交叉注意力与图像嵌入融合。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">注:尽管MuseTalk使用的架构与Stable Diffusion 非常相似,但MuseTalk的独特之处在于它不是一个扩散模型。相反,MuseTalk是通过在潜在空间中单步修复来操作。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(250, 81, 81);color: rgb(255, 255, 255);">MuseTalk演示案例MuseV + MuseTalk 让人物照片栩栩如生!01. Sit输入图像:
MuseV:MuseTalk:02. Sun输入图像:
MuseV:MuseTalk:视频配音对于视频配音,官方团队应用了一个自行开发的工具识别说话的人物完成视频配音。下面展示视频对应原视频地址为:https://www.bilibili.com/video/BV1wT411b7HU MuseTalk模型ComfyUI体验当前社区已有对应的ComfyUI插件支持,插件地址为:https://github.com/chaojie/ComfyUI-MuseTalk。整体流程搭建比较复杂需要折腾好一阵才行,如果想快速体验和试用同学,推荐下载安装边城大佬的懒人安装包简单快速并且可控: WEBUI整合包自取:夸克网盘链接:https://pan.quark.cn/s/410df2160388 ComfyUI插件安装步骤如下所示(模型和工作流已放置文末口令获取):

•下载模型TMElyralab/MuseTalk,以及sd-vae-ft-mse,whisper,dwpose,face-parse-bisent,resnet18多个模型。由于模型较多,笔者已经按照目录结构整理放在文末网盘链接,只需要解压到对应位置即可。目录结构如下:
ComfyUI/models/diffusers/TMElyralab/MuseTalk/ ├──musetalk │└──musetalk.json │└──pytorch_model.bin ├──dwpose │└──dw-ll_ucoco_384.pth ├──face-parse-bisent │├──79999_iter.pth │└──resnet18-5c106cde.pth ├──sd-vae-ft-mse │├──config.json │└──diffusion_pytorch_model.bin └──whisper └──tiny.pt
•另外官方说默认情况会自动下载s3fd.pth文件,但似乎并未下载。如发现下列报错,需要手动将该模型放置在目录/ComfyUI/custom_nodes/ComfyUI-MuseTalk/musetalk/utils/face_detection/detection/sfd下。模型已放置在文末口令获取。 RuntimeError:unexpectedEOF,expected15021382morebytes.Thefilemightbecorrupted. CannotimportMuseTalkmoduleforcustomnodes:unexpectedEOF,expected15021382morebytes.Thefilemightbecorrupted.
pipinstall--no-cache-dir-Uopenmim miminstallmmengine miminstall"mmcv>=2.0.1" miminstall"mmdet>=3.1.0" miminstall"mmpose>=1.1.0"

01.上春山输入视频(MuseV):输出视频(MuseTalk)02.变换英文歌曲由于微信文章视频数量限制,以下案例就仅仅放置输出视频效果展示。
输出视频(MuseTalk)03.不懂欣赏我输出视频(MuseTalk)附录• github:https://github.com/TMElyralab/MuseTalk • ComfyUI-MuseV:https://github.com/chaojie/ComfyUI-MuseTalk • 模型和工作流:关注公众号私信口令【ComfyUI-MuseTalk】获取
|