返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

腾讯MuseTalk:实时音唇同步虚拟数字人模型

[复制链接]
链载Ai 显示全部楼层 发表于 2 小时前 |阅读模式 打印 上一主题 下一主题

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin-right: auto;margin-bottom: 1em;margin-left: auto;padding-right: 1em;padding-left: 1em;border-bottom: 2px solid rgb(250, 81, 81);color: rgb(63, 63, 63);">MuseTalk:实时高品质唇形同步与潜在空间修复

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(250, 81, 81);color: rgb(255, 255, 255);">MuseTalk简介

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">腾讯音乐娱乐实验室开源了一个名为:MuseTalk的模型,这是一个实时高品质唇形同步模型MuseTalk可以与输入视频一起使用,例如由MuseV生成的视频(腾讯MuseV:无限长度和高保真虚拟人视频生成,ComfyUI使用指南),作为完整的虚拟数字人人解决方案。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">MuseTalk是一个实时高品质音频驱动的唇形同步模型,是在ft-mse-vae的潜在空间中进行训练,该模型:

    ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 1em;color: rgb(63, 63, 63);" class="list-paddingleft-1">
  1. 1.能够根据输入的音频修改未知的面部动作,面部区域大小为256 x 256

  2. 2. 支持中文、英文和日文等多种语言的音频。

  3. 3.在 NVIDIA Tesla V100 上支持超过30fps的实时推理。

  4. 4.支持修改面部区域中心点,这对生成结果有显著影响。

  5. 5. 在 HDTF 数据集上训练的模型checkpoint。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">关于MuseVMuseTalk结合作为虚拟人生成的完整解决方案。建议首先使用MuseV生成一个视频(文本到视频、图像到视频或姿态到视频)。建议使用帧插值以增加帧率。然后,可以使用MuseTalk生成一个音唇同步视频。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.1em;font-weight: bold;margin-top: 2em;margin-right: 8px;margin-bottom: 0.75em;padding-left: 8px;border-left: 3px solid rgb(250, 81, 81);color: rgb(63, 63, 63);">MuseTalk模型

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">MuseTalk是在潜在空间中进行训练,其中图像由冻结的 VAE 编码,音频由冻结的whisper-tiny模型编码。生成网络的架构借鉴了stable-diffusion-v1-4的 UNet,其中音频嵌入通过交叉注意力与图像嵌入融合。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">注:尽管MuseTalk使用的架构与Stable Diffusion 非常相似,但MuseTalk的独特之处在于它不是一个扩散模型。相反,MuseTalk是通过在潜在空间中单步修复来操作。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(250, 81, 81);color: rgb(255, 255, 255);">MuseTalk演示案例

MuseV + MuseTalk 让人物照片栩栩如生!

01. Sit

输入图像:

MuseV:

MuseTalk:

02. Sun

输入图像:

MuseV:

MuseTalk:

视频配音

对于视频配音,官方团队应用了一个自行开发的工具识别说话的人物完成视频配音。下面展示视频对应原视频地址为:https://www.bilibili.com/video/BV1wT411b7HU

MuseTalk模型ComfyUI体验

当前社区已有对应的ComfyUI插件支持,插件地址为:https://github.com/chaojie/ComfyUI-MuseTalk。整体流程搭建比较复杂需要折腾好一阵才行,如果想快速体验和试用同学,推荐下载安装边城大佬懒人安装包简单快速并且可控:

WEBUI整合包自取:夸克网盘链接:https://pan.quark.cn/s/410df2160388

ComfyUI插件安装步骤如下所示(模型和工作流已放置文末口令获取):

  • •通过ComfyUI插件管理器搜索ComfyUI-MuseTalk,并点击安装插件。

  • •下载模型TMElyralab/MuseTalk,以及sd-vae-ft-msewhisper,dwpose,face-parse-bisent,resnet18多个模型。由于模型较多,笔者已经按照目录结构整理放在文末网盘链接,只需要解压到对应位置即可。目录结构如下:

ComfyUI/models/diffusers/TMElyralab/MuseTalk/
├──musetalk
│└──musetalk.json
│└──pytorch_model.bin
├──dwpose
│└──dw-ll_ucoco_384.pth
├──face-parse-bisent
│├──79999_iter.pth
│└──resnet18-5c106cde.pth
├──sd-vae-ft-mse
│├──config.json
│└──diffusion_pytorch_model.bin
└──whisper
└──tiny.pt

•另外官方说默认情况会自动下载s3fd.pth文件,但似乎并未下载。如发现下列报错,需要手动将该模型放置在目录/ComfyUI/custom_nodes/ComfyUI-MuseTalk/musetalk/utils/face_detection/detection/sfd下。模型已放置在文末口令获取

RuntimeError:unexpectedEOF,expected15021382morebytes.Thefilemightbecorrupted.
CannotimportMuseTalkmoduleforcustomnodes:unexpectedEOF,expected15021382morebytes.Thefilemightbecorrupted.
  • •除了 模型下载外,还需要手动安装如下依赖:

pipinstall--no-cache-dir-Uopenmim
miminstallmmengine
miminstall"mmcv>=2.0.1"
miminstall"mmdet>=3.1.0"
miminstall"mmpose>=1.1.0"
  • •导入工作流并重启ComfyUI软件。

01.上春山

输入视频(MuseV):

输出视频(MuseTalk)

02.变换英文歌曲

由于微信文章视频数量限制,以下案例就仅仅放置输出视频效果展示。

输出视频(MuseTalk)

03.不懂欣赏我

输出视频(MuseTalk)

附录

  • • github:https://github.com/TMElyralab/MuseTalk

  • • ComfyUI-MuseV:https://github.com/chaojie/ComfyUI-MuseTalk

  • • 模型和工作流:关注公众号私信口令【ComfyUI-MuseTalk】获取


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ