|
现有的大规模自回归文本转语音(TTS)模型在语音自然度方面表现突出,但由于逐 token 生成机制,难以精确控制语音时长。这在需要严格音画同步的应用(如视频配音)中成为一大限制。 B站最新提出的IndexTTS2,在保持自回归模型优势的同时,提供了一种全新且通用的语音时长控制方法。 🔹 两种生成模式- 显式控制模式:可直接指定生成 token 数量,从而精确控制语音时长。
原声: 文本: The equipment needed to do this includes rock saws and polishers.
短时长 中时长 长时长 - 自由生成模式:无需指定时长,模型仍能保持自然的韵律特征。
情感: Angry 😠
文本: 你在我们屋子里走路的时候,发现路程遥远,这是不足为怪的。
原声 输出 🔹 情感与音色的解耦IndexTTS2 实现了情感表达与说话人音色的解耦: 🔹 技术亮点- GPT 潜在表示:在高度情绪化表达中引入 GPT 表征,提升语音清晰度与稳定性。
- 软指令机制:结合 Qwen3 微调,通过文字描述即可引导情感控制,大幅降低使用门槛。
🔹 实验结果在多个数据集上的实验表明,IndexTTS2 在以下方面均超越现有最先进的零样本 TTS 模型: 技术架构IndexTTS2 在架构和方法上带来了多项突破:
- 首次在自回归零样本 TTS 模型中实现了精准时长控制与自然时长生成的结合。
- 该方案具有良好的可扩展性,可适用于任意大规模自回归 TTS 模型。
- 模型将情感特征与音色特征从提示中分离,并通过特征融合策略保证在高度情绪化表达下的语义流畅性和发音清晰度。
- 进一步开发了基于自然语言描述的情感控制工具,用户仅需输入文字即可便捷引导语音的情感方向。
- 针对高表达力语音数据不足的问题,提出了一种高效的三阶段训练策略。
- 显著提升了零样本 TTS 的情感表现力,使其达到当前的SOTA(State-of-the-Art)水平。
- 将公开代码与预训练权重,以推动未来的研究探索和实际应用落地。
🔹 试听样例视频翻译配音 🔹 我的测试HuggingFace 上可以适用: https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo
情感: Happy 😄
文本: We will make America strong again. We will make America proud again. We will make America safe again. And we will make America great again.
原声: 输出:
|