链载Ai

标题: IndexTTS2：哔哩哔哩推出全新大规模自回归语音合成模型 [打印本页]

作者: 链载Ai 时间: 2025-12-1 22:23
标题: IndexTTS2：哔哩哔哩推出全新大规模自回归语音合成模型

现有的大规模自回归文本转语音（TTS）模型在语音自然度方面表现突出，但由于逐 token 生成机制，难以精确控制语音时长。这在需要严格音画同步的应用（如视频配音）中成为一大限制。

B站最新提出的IndexTTS2，在保持自回归模型优势的同时，提供了一种全新且通用的语音时长控制方法。

原声：

文本：

The equipment needed to do this includes rock saws and polishers.

短时长

中时长

长时长

情感：

Angry 😠

文本：

你在我们屋子里走路的时候，发现路程遥远，这是不足为怪的。

原声

输出

IndexTTS2 实现了情感表达与说话人音色的解耦：

在多个数据集上的实验表明，IndexTTS2 在以下方面均超越现有最先进的零样本 TTS 模型：

IndexTTS2 在架构和方法上带来了多项突破：

视频翻译配音

HuggingFace 上可以适用： https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo

情感：

Happy 😄

文本：

We will make America strong again. We will make America proud again. We will make America safe again. And we will make America great again.

原声：

输出：

欢迎光临链载Ai (https://www.lianzai.com/)