现有的大规模自回归文本转语音(TTS)模型在语音自然度方面表现突出,但由于逐 token 生成机制,难以精确控制语音时长。这在需要严格音画同步的应用(如视频配音)中成为一大限制。
B站最新提出的IndexTTS2,在保持自回归模型优势的同时,提供了一种全新且通用的语音时长控制方法。
原声:
文本:
The equipment needed to do this includes rock saws and polishers.
短时长
中时长
长时长
情感:
Angry 😠
文本:
你在我们屋子里走路的时候,发现路程遥远,这是不足为怪的。
原声
输出
IndexTTS2 实现了情感表达与说话人音色的解耦:
在多个数据集上的实验表明,IndexTTS2 在以下方面均超越现有最先进的零样本 TTS 模型:
IndexTTS2 在架构和方法上带来了多项突破:
时长自适应方案
情感与音色解耦
数据与训练策略优化
开源与生态
视频翻译配音
HuggingFace 上可以适用: https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo
情感:
Happy 😄
文本:
We will make America strong again. We will make America proud again. We will make America safe again. And we will make America great again.
原声:
输出:
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |