链载Ai

标题: IndexTTS2:哔哩哔哩推出全新大规模自回归语音合成模型 [打印本页]

作者: 链载Ai    时间: 昨天 22:23
标题: IndexTTS2:哔哩哔哩推出全新大规模自回归语音合成模型

现有的大规模自回归文本转语音(TTS)模型在语音自然度方面表现突出,但由于逐 token 生成机制,难以精确控制语音时长。这在需要严格音画同步的应用(如视频配音)中成为一大限制。

B站最新提出的IndexTTS2,在保持自回归模型优势的同时,提供了一种全新且通用的语音时长控制方法

🔹 两种生成模式

  1. 显式控制模式:可直接指定生成 token 数量,从而精确控制语音时长。

原声:

文本:

The equipment needed to do this includes rock saws and polishers.

短时长

中时长

长时长

  1. 自由生成模式:无需指定时长,模型仍能保持自然的韵律特征。

情感:

Angry 😠

文本:

你在我们屋子里走路的时候,发现路程遥远,这是不足为怪的。

原声

输出

🔹 情感与音色的解耦

IndexTTS2 实现了情感表达与说话人音色的解耦

🔹 技术亮点

🔹 实验结果

在多个数据集上的实验表明,IndexTTS2 在以下方面均超越现有最先进的零样本 TTS 模型:

技术架构

IndexTTS2 在架构和方法上带来了多项突破:

  1. 时长自适应方案






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5