字节超快超强声音克隆 MegaTTS3, 声音克隆几乎一模一样, 可跨语言克隆.

显示全部楼层

ComfyUI 的 MegaTTS3 声音克隆节点

https://github.com/billwuhao/ComfyUI_MegaTTS3

声音克隆质量非常高, 支持中英文, 并可跨语言克隆.

? 更新

[2025-04-06]⚒️: 发布 v1.0.0.

安装

cdComfyUI/custom_nodes
gitclonehttps://github.com/billwuhao/ComfyUI_MegaTTS3.git
cdComfyUI_MegaTTS3
pip install -r requirements.txt

# python_embeded
./python_embeded/python.exe -m pip install -r requirements.txt

模型下载

模型和音色需要手动下载放到ComfyUI\models\TTS路径下:

[MegaTTS3](https://huggingface.co/ByteDance/MegaTTS3/tree/main) 整个文件夹全部下载放到TTS文件夹下.

MegaTTS3文件夹中新建speakers文件夹, 从 [Google drive](https://drive.google.com/drive/folders/1QhcHWcy20JfqWjgqZX1YM3I6i9u4oNlr)下载所有.wav和.npy文件, 放到speakers文件夹下.

唯一的遗憾是不能自定义克隆声音, 因为克隆质量太好了, 出于安全考虑, 官方未发布自定义克隆的参数, 但是你可以上传要克隆的声音申请(长度 24s 内), 申请地址:

https://drive.google.com/drive/folders/1gCWL1y_2xu9nIFhUX_OW5MbcFuB7J5Cl

目前已经有近 300 种音色了. 我已经打包上传到云盘, 文末获取.

鸣谢

[MegaTTS3](https://github.com/bytedance/MegaTTS3)

- 效果演示. 前面是原声, 后面是克隆:

01

02

03

04

05

公众号后台聊天窗口回复250406获取.

明文视界 AI 资源站:
https://aiart.website/
明文视界 GitHub ComfyUI 节点项目:

ComfyUI_MegaTTS3: 字节超快超强声音克隆, 可跨语言克隆.
ComfyUI_Prompt-All-In-One: 为所有影,音,图,文创作生成提示的 ComfyUI 节点.
ComfyUI_OneButtonPrompt: 在 comfyui 中一键辅助生成提示 (用于图像和视频生成等) 的节点.
ComfyUI_AudioTools: 音频处理等相关的 ComfyUI 节点. 包括视频自动添加字幕; 音频任意时间刻度裁剪; 音频音量, 速度, 音高, 回音处理等; 去除音频中无声部分; 录音; 音频水印嵌入等.
ComfyUI_StepAudioTTS: Step-Audio-TTS 的 ComfyUI 节点, 文本转语音, 可说话, 唱歌, RAP, 或者克隆声音.
ComfyUI_SparkTTS: 在 Comfyui 中使用 Spark-TTS. Spark-TTS: 一种基于 LLM 的高效文本到语音模型，能克隆各种语言的声音.
ComfyUI_NotaGen: NotaGen 的 ComfyUI 节点. 可以同时生成古典音乐和曲谱.
ComfyUI_KokoroTTS_MW: Kokoro-TTS 的快速文本转语音节点. 支持 8 种语言和 150 种音色.
ComfyUI_gemmax: 小米 GemmaX 翻译, 支持 28 种语言的 ComfyUI 节点.
ComfyUI_EraX-WoW-Turbo: 超快速多语言语音识别的 ComfyUI 节点. 可带时间戳.
ComfyUI_DiffRhythm: 快速而简单的歌曲生成 ComfyUI 节点.
ComfyUI_CSM: 声音克隆, 多轮对话节点, 可根据对话情绪变化情绪, 只支持英文.

明文视界仙宫云镜像:
无需本地部署, 和高显卡要求, 直接云端玩 AI.
https://www.xiangongyun.com/image/detail/a1cb959b-a750-4ce6-9418-3659906955d2?r=I9YXP1
使用教程:明文视界仙宫云镜像使用教程
LIBLIB AI:
https://www.liblib.art/userpage/53a1edbdf5394aaba7028eff2aaec867