MuseTalk的模型,这是一个实时高品质唇形同步模型。MuseTalk可以与输入视频一起使用,例如由MuseV生成的视频(腾讯MuseV:无限长度和高保真虚拟人视频生成,ComfyUI使用指南),作为完整的虚拟数字人人解决方案。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">MuseTalk是一个实时高品质音频驱动的唇形同步模型,是在ft-mse-vae的潜在空间中进行训练,该模型:1.能够根据输入的音频修改未知的面部动作,面部区域大小为256 x 256。
2. 支持中文、英文和日文等多种语言的音频。
3.在 NVIDIA Tesla V100 上支持超过30fps的实时推理。
4.支持修改面部区域中心点,这对生成结果有显著影响。
5. 在 HDTF 数据集上训练的模型checkpoint。
MuseV和MuseTalk结合作为虚拟人生成的完整解决方案。建议首先使用MuseV生成一个视频(文本到视频、图像到视频或姿态到视频)。建议使用帧插值以增加帧率。然后,可以使用MuseTalk生成一个音唇同步视频。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.1em;font-weight: bold;margin-top: 2em;margin-right: 8px;margin-bottom: 0.75em;padding-left: 8px;border-left: 3px solid rgb(250, 81, 81);color: rgb(63, 63, 63);">MuseTalk模型ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">MuseTalk是在潜在空间中进行训练,其中图像由冻结的 VAE 编码,音频由冻结的whisper-tiny模型编码。生成网络的架构借鉴了stable-diffusion-v1-4的 UNet,其中音频嵌入通过交叉注意力与图像嵌入融合。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">注:尽管MuseTalk使用的架构与Stable Diffusion 非常相似,但MuseTalk的独特之处在于它不是一个扩散模型。相反,MuseTalk是通过在潜在空间中单步修复来操作。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(250, 81, 81);color: rgb(255, 255, 255);">MuseTalk演示案例对于视频配音,官方团队应用了一个自行开发的工具识别说话的人物完成视频配音。下面展示视频对应原视频地址为:https://www.bilibili.com/video/BV1wT411b7HU
当前社区已有对应的ComfyUI插件支持,插件地址为:https://github.com/chaojie/ComfyUI-MuseTalk。整体流程搭建比较复杂需要折腾好一阵才行,如果想快速体验和试用同学,推荐下载安装边城大佬的懒人安装包简单快速并且可控:
WEBUI整合包自取:夸克网盘链接:https://pan.quark.cn/s/410df2160388
ComfyUI插件安装步骤如下所示(模型和工作流已放置文末口令获取):
•通过ComfyUI插件管理器搜索ComfyUI-MuseTalk,并点击安装插件。
•下载模型TMElyralab/MuseTalk,以及sd-vae-ft-mse,whisper,dwpose,face-parse-bisent,resnet18多个模型。由于模型较多,笔者已经按照目录结构整理放在文末网盘链接,只需要解压到对应位置即可。目录结构如下:
ComfyUI/models/diffusers/TMElyralab/MuseTalk/
├──musetalk
│└──musetalk.json
│└──pytorch_model.bin
├──dwpose
│└──dw-ll_ucoco_384.pth
├──face-parse-bisent
│├──79999_iter.pth
│└──resnet18-5c106cde.pth
├──sd-vae-ft-mse
│├──config.json
│└──diffusion_pytorch_model.bin
└──whisper
└──tiny.pt•另外官方说默认情况会自动下载s3fd.pth文件,但似乎并未下载。如发现下列报错,需要手动将该模型放置在目录/ComfyUI/custom_nodes/ComfyUI-MuseTalk/musetalk/utils/face_detection/detection/sfd下。模型已放置在文末口令获取。
RuntimeError:unexpectedEOF,expected15021382morebytes.Thefilemightbecorrupted.
CannotimportMuseTalkmoduleforcustomnodes:unexpectedEOF,expected15021382morebytes.Thefilemightbecorrupted.•除了 模型下载外,还需要手动安装如下依赖:
pipinstall--no-cache-dir-Uopenmim
miminstallmmengine
miminstall"mmcv>=2.0.1"
miminstall"mmdet>=3.1.0"
miminstall"mmpose>=1.1.0"•导入工作流并重启ComfyUI软件。
• github:https://github.com/TMElyralab/MuseTalk
• ComfyUI-MuseV:https://github.com/chaojie/ComfyUI-MuseTalk
• 模型和工作流:关注公众号私信口令【ComfyUI-MuseTalk】获取
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |