链载Ai

标题: 字节跳动Seed-TTS：高品质系列多功能语音生成模型 [打印本页]

作者: 链载Ai 时间: 昨天 10:08
标题: 字节跳动Seed-TTS：高品质系列多功能语音生成模型

摘要

我们介绍了Seed-TTS，这是一个大规模自回归文本转语音系列（TTS）模型能够生成与人类语音几乎无法区分的语音。Seed-TTS作为语音生成的基础模型，在语音上下文学习方面表现出色，在说话人的相似性和自然性方面取得了与客观和主观评估中基本人类语音相匹配的表现。通过微调，我们在这些指标上获得了更高的主观分数。Seed-TTS对各种语音属性（如情感）具有卓越的可控性，并且能够为野外的说话者生成高度富有表现力和多样化的语音。此外，我们提出了一种用于语音分解的自蒸馏方法，以及一种增强模型鲁棒性、说话人相似性和可控性的强化学习方法。我们还提出了Seed-TTS模型的非自回归（NAR）变体，名为Seed-TTSDiT，它利用完全基于扩散的架构。与以前基于NAR的TTS系统不同，Seed-TTSDiT不依赖于预先估计的音素持续时间，而是通过端到端处理来执行语音生成。我们证明了该变体的性能与基于语言模型的变体相当，并展示了其在语音编辑中的有效性。我们鼓励读者收听https://bytedancespeech.github.io/seedtts_tech_报告的演示。

1序言

2方法

3实验

4模型扩展

5模型应用、局限性和安全性

6引用参考

7作者（按字母顺序排列）

8致谢

1序言

我们提出了Seed-TTS，这是一个语音生成模型系列，能够合成具有人类水平自然性和表现力的语音。它还可以基于简短的注册语音剪辑以零样本方式创建可控、高保真合成语音。该模型在虚拟助手、有声读物、视频配音等应用中具有巨大的潜力。

Seed-TTS的主要目标是创建一个接近人类水平语音的语音生成模型，即使对于数据很少的野外任意说话者也是如此。Seed-TTS已经过三项任务的评估：零样本语音上下文学习（ICL）、说话人微调和情绪控制。我们发布了测试数据集的配置，用于将来的基准测试，并讨论了模型在产品部署方面的行为。

我们进一步介绍了两种可以显着提高模型性能的新扩展技术：通过自我蒸馏的语音分解和通过强化学习（RL）的偏好偏差。对于前者，与常用的方法（如特征工程）[Chen et al.，2023，Wang et al.，2024a，2023a]或专用损失配方[Ju et al.，2024，Łajszczak et al.，2024]或模型设计[Qian et al.，2019，江et al.，2023]，我们简单的自蒸馏方案使Seed-TTS能够在不改变模型的情况下实现高质量的音色解缠。

请将本文引用为“Seed-TTS（2024）”。完整的作者贡献和致谢声明可在文档末尾找到。有关本技术报告的信函应发送至Seed-TTS@bytedance.com。

结构或损失函数。对于后者，我们采用RL技术[Kaelbling et al.，1996，Li，2017]并证明了它们在提高鲁棒性、说话人相似性和可控性方面的有效性。然后，我们比较了语音生成的两个主要类别的优缺点：基于语言模型的[Wang et al.，2023b，Zhang et al.，2023，Łajszczak et al.，2024]和基于扩散的[Ju et al.，2024，Gao et al.，2023a，Chen et al.，2022a，Lovelace et al.，2023]建模。为此，我们设计了Seed-TTS的非自回归（NAR）变体，名为Seed-TTSDiT，这是一个完全基于扩散的语音生成模型，它以端到端的方式直接预测输出语音潜在表示，而不是像以前的NAR方法那样依赖单独的持续时间预测模块[Tan et al.，2022，Le et al.，2024，Du et al.，2024，江等人.，2023，任et al.，2019，Yi et al.，2022a，b]。我们展示了Seed-TTSDiT的性能与基于自回归语言模型的方法相当，并展示了其语音编辑功能。

最后，我们讨论了Seed-TTS的潜在应用和局限性，以及我们在开发过程中遇到的一些挑战，包括与构建具有社会责任感的人工智能（AI）相关的挑战。Seed-TTS的功能和局限性在多媒体和安全应用中带来了重大而新的挑战，我们认为在考虑其潜在的社会影响时必须仔细研究这些挑战。

我们的主要贡献如下：

1.我们介绍了Seed-TTS，这是一个语音生成模型系列，能够生成高度表现力的、类似人类的语音。我们证明了Seed-TTS在多次评估中实现了最先进的（SOTA）性能。在零样本ICL设置下，我们发现Seed-TTS能够生成与人类语音无法区分的强大、相似和高度动态的语音。

2.我们提出了一种用于音色解缠的Seed-TTS的新型自蒸馏扩展，并展示了SOTA在语音转换任务中的性能。

3.我们为Seed-TTS引入了一种基于RL的新型训练后扩展，它全面提高了模型的性能。

4.我们提出了一种新型的完全扩散的Seed-TTS变体，它实现了卓越的生成质量。我们展示了它在语音编辑任务中的优势，并将其与基于语言模型的对应物进行了比较。

2方法

Seed-TTS是一种基于自回归变压器的[Touvron et al.，2023，Vaswani et al.，2017]模型，如图1所示。我们的系统由四个主要构建块组成：语音分词器、令牌语言模型、令牌扩散模型和声学声码器。我们强调，Seed-TTS是在大量数据上训练的（比以前最大的TTS系统大几个数量级），以实现强大的泛化和涌现能力。

图1.Seed-TTS推理流水线概述。

（1）语音分词器从参考语音中学习分词。

（2）自回归语言模型根据条件文本和语音生成语音标记。

（3）扩散变压器模型以从粗到细的方式在给定生成的语音标记的情况下生成连续的语音表示。（4）声学声码器从扩散输出中产生更高质量的语音。

首先，语音分词器将语音信号转换为一系列语音标记，在此基础上使用类似于Betker[2023]、Łajszczak等人描述的方法训练标记语言模型。[2024]，以及Wang等人。[2023b].我们研究了连续和离散语音分词器，发现分词器的设计对整个系统的性能至关重要。语言模型在成对的文本和语音标记序列上进行训练。在推理过程中，它会自动回归生成语音标记。请注意，在本技术报告中，我们专注于语音生成任务，因此文本序列的丢失被屏蔽了。然后，扩散模型对这些生成的标记进行处理，以增强声学细节。输出被传递到声学声码器以预测最终波形。声学声码器是单独训练的，其设计类似于Kumar等人。[2024]，Lee et al.[2022]，Cong et al.[2021]和Liu和Qian[2021]。

与基于文本的语言模型类似，Seed-TTS经历了三个训练阶段：预训练、微调和训练后。预训练阶段旨在最大限度地扩大场景和说话人的覆盖范围，同时为一般语音建模建立强大的骨干。如前所述，Seed-TTS在此阶段利用了大量的训练数据和模型规模，这些数据和模型规模比以前的语音生成模型大几个数量级。

微调阶段包括扬声器微调和指令微调。扬声器微调侧重于增强选定扬声器组的性能，而指令微调旨在提高可控性和交互性。通过RL进行后期训练，从整体上改进模型。

与以前的模型相比，我们观察到Seed-TTS模型的两个主要优势。

首先，SeedTTS在各种场景中表现出卓越的自然性和表现力，包括喊叫、哭泣或高度情绪化的演讲等具有挑战性的场景。在开发过程中，我们在以前的TTS系统认为困难或不可能的场景中对模型进行了严格的测试，显示出与以前的SOTA系统相比的明显优势。示例在§3.1中展示。

其次，Seed-TTS解决了基于语言模型的TTS系统中普遍存在的稳定性问题，这些问题阻碍了它们在现实世界中的部署。稳定性是通过标记和模型设计改进、增强的训练和推理策略、数据增强和训练后强化的组合来实现的。因此，Seed-TTS在测试集上实现了显著更好的鲁棒性。

作为语音生成的基础模型，Seed-TTS可以执行各种任务，如语音ICL、可控TTS、跨语言TTS、语音转换、音色生成和说话风格迁移。在本报告中，我们演示了Seed-TTS在语音ICL、说话人微调、可控TTS和语音转换等任务中的表现。

具体来说，我们的ICL结果，也称为零样本语音延续，在§3.1中进行了详细说明。ICL被定义为生成一种新颖的口语，其音色和韵律与简短的参考语音片段相同[Wang et al.，2018，2023b，Zalán et al.，2022]。ICL结果是通过使用预训练的Seed-TTS模型持续音频和文本提示获得的。§3.2介绍了扬声器微调和指令微调的结果，§4.2讨论了强化训练后的结果。语音转换结果见§4.1。

3实验

3.1零样本上下文语境学习

我们为这些实验准备了两个测试集，分别表示为客观集和主观集。目标集包括从英语（EN）和普通话（ZH）公共语料库中提取的样本，用于衡量模型在各种客观指标上的表现。具体来说，我们使用了来自Common Voice数据集的1,000个样本[Ardila et al.，2019]和2,000个样本DiDiSpeech数据集[Guo et al.，2021]。主观集由100个英语和普通话样本组成，这些样本来自用于主观评估的内部数据集，包含比客观集更丰富的语音，包括具有不同口音、方言、情感和说话风格的高度表现力的演讲。

对于这两个测试集，我们确保每个样本都包含一个参考话语和一个由同一说话人说出的目标话语。所提出的Seed-TTS系统基于参考语音作为音频提示生成目标文本的语音。通过这种方式，我们可以直接将合成语音与来自真实人类的基本事实语音进行比较。引用话语的持续时间范围为3到20秒。

评估指标。我们采用单词错误率（WER）和说话人相似度（SIM）指标进行客观评估。对于WER，我们使用Whisper-large-v3 [Radford et al.，2023]和Paraformerzh [Gao et al.，2023b]分别作为英语和普通话的自动语音识别（ASR）引擎。对于SIM卡，我们在说话人验证任务上使用WavLM-large进行微调[Chen et al.，2022b，c]获得说话人嵌入，用于计算每个测试话语的语音样本与参考片段的余弦相似度。我们使用比较平均意见评分（CMOS）研究进行主观评估，如下所示。对于每个测试样本，首先向人类评估者展示目标说话者的参考语音片段。然后，他们以随机顺序播放我们模型的合成输出和相应的地面真实人类语音。评估者被要求在-2到+2之间的范围内对具有较高说话人相似性和表现力的样本进行评分，其中-2和+2表示对第一个样本的偏好最少和最强。我们收集结果，按照“Seed-TTS vs. Human”的顺序重新排列每个比较，并平均所有评估者和测试句子的偏好分数。根据经验，在两个系统之间，绝对CMOS得分低于0.1被认为是微不足道的。表1报告了两个测试集的结果。我们在此GitHub存储库中发布目标集的配置，以启用基准测试。^{^[1]}

系统

Lang.

客观数据集

主管数据集

WER (↓)

SIM (↑)

CMOS (↑) vs. Human

Seed-TTS

2.249

0.762

-0.07

Vocoder resynthesized

2.165

0.702

Human

2.143

0.730

Seed-TTS

1.115

0.796

-0.08

Vocoder resynthesized

1.342

0.733

Human

1.254

0.750

表1：Seed-TTS对重新合成和真实人类语言的评估结果。

上下文情境学习结果。从表1中，我们观察到Seed-TTS实现了与地面真实人类语音相似的WER，并且说话者的相似度明显更高。这一结果可以通过观察来解释，即即使由同一个说话者说出，基本事实和参考话语在说话风格和背景环境中仍然会有所不同。相比之下，Seed-TTS在生成目标话语时准确捕获参考语音的特征，从而更一致、更忠实地再现注册剪辑。我们在此页面中展示ICL示例。

值得注意的是，较低的WER并不一定会导致说话者相似度的主观分数提高。我们根据经验观察到，较低的WER通常表明该模型产生更“标准化”的语音，这些语音更容易被ASR系统识别，但以牺牲其他理想品质为代价。例如，在提示语音包含强烈口音或高表现力的情况下，从生成的语音中获得较低的WER通常表明语音的口音较少，模型的输出空间变化有限，这听起来可能不那么自然，并且在主观评估中测量时会降低说话者的相似性。

在主观测试中，Seed-TTS在英语和普通话方面的表现与真实的人类语音非常接近，CMOS得分分别为-0.07和-0.08。请注意，主观测试集包括多样化和富有表现力的语音。在早期开发过程中，我们对几个先前的模型进行了相同的评估，例如江等人。[2023]，Le et al.[2024]，Wang et al.[2023b]，Zhang et al.[2023]，Song et al.[2024]，任等人。[2020]，Ju et al.[2024]，以及Shen等人。[2023]，所有这些结果都产生了低于-1的CMOS结果，表明合成语音和真实人类语音之间存在巨大差距。Seed-TTS的主观测试标志着TTS系统的第一个实例，该系统在具有野外语音提示的零次ICL设置中生成与真实人类语音无法区分的结果。对于CMOS分数较低的样本，评估人员指出，真实的人类语音在句子之间包含更多的变化，而合成的语音则保持了参考文献定义的一致韵律。这种一致性导致与语音提示的相似性更好，但导致长格式语音生成的韵律变化略少。多镜头ICL方法可以解决这一局限性，我们将在未来的工作中对此进行研究。

与传统扬声器微调TTS型号的比较。我们将我们的零样本ICL系统与一组传统的基于FastSpeech的ICL系统进行了比较[任等人。，2020，Liu et al.，2022]扬声器微调的TTS型号。我们收集了10位演讲者的演讲，分为两组：

“普通”扬声器组（7个扬声器）由普通的日常语音组成，而“硬”扬声器组（3个扬声器）由具有强烈口音或非常独特、夸张的说话风格的扬声器组成，例如，电子高音调花栗鼠虚拟角色。对于Seed-TTS，随机选择一个平均持续时间为15秒的句子用作每个说话者的语音提示。每个演讲者的完整训练集（每个大约5小时）用于微调单独的，训练有素的传统TTS系统，其设置与Liu等人描述的设置相似。[2022].

对于每个说话者，每个系统都会生成30个话语，涵盖不同的场景、上下文和情感。我们测量了10名人类评估者平均每个系统每个扬声器的平均偏好率，并将结果呈现在图2中。

图2.使用“普通”和“硬”测试集的Seed-TTS零样本ICL（使用15秒音频提示）和传统扬声器微调神经TTS模型（使用5小时数据）之间的主观偏好。

我们观察到，对于“普通”扬声器组，与传统的微调TTS系统相比，我们的零射ICL系统在47.9%的测试样本中受到青睐。根据人类评估人员的说法，Seed-TTS在自然性和表现力方面表现出明显的优势。然而，对于“硬”扬声器，传统的微调型号表现出更强的性能。我们推测这是因为我们的零镜头ICL一代没有忠实地保留口音和独特的说话风格，尤其是在15秒提示中不包括说话者的代表性韵律的情况下。我们相信，通过更长的提示和更好的训练数据覆盖率，可以缓解这些限制。

言语理解评估。我们通过在生成的语音上训练ASR模型来进一步验证Seed-TTS的生成质量[Le et al.，2024]。为此，我们生成了LibriSpeech 960小时训练集的合成版本[Panayotov et al.，2015]，通过“文本波洗牌”策略，并使用合成语料库从头开始训练ASR模型，然后我们使用它在原始LibriSpeech开发和测试集上转录语音。具体来说，我们通过将其用作音频提示来生成训练集中每个话语的合成版本，以使用训练集中随机采样的文本合成新句子，同时确保所有话语和文本仅采样一次。通过这种方式，我们创建了一个合成的LibriSpeech训练语料库，该语料库保持了与原始语料库相同的总说话人和内容信息，以使用WeNet工具包训练ASR模型[Zhang等人。，2022]。我们采用了12层Squeezeformer [Kim et al.，2022]作为ASR编码器，3层双向变压器作为ASR解码器。ASR基线模型也在原始LibriSpeech训练语料库上进行了训练。所有模型都使用相同的超参数进行训练，例如，纪元数、批量大小、学习率等。每个模型都在LibriSpeech开发和测试集上进行了测试，其结果如表2所示。

表2.在ASR任务中用合成数据训练的模型和真实数据之间的WER（↓）比较。

我们观察到，对于干净集，即dev_clean和test_clean，使用合成数据训练的模型实现了与使用真实数据训练的模型非常相似的ASR性能。在嘈杂的dev_other和test_other集上分别观察到1.81%和1.6%的绝对WER下降，我们推测这是由于Seed-TTS在生成过程中倾向于降低背景噪声，导致对噪声的鲁棒性降低。随着数据增强[Chen et al.，2022c，Li et al.，2018]，我们相信差距会缩小。这一结果表明，在语音理解模型开发中使用合成数据具有潜力，这进一步推动了语音理解和生成的统一。

可视化地面实况和ICL语音的说话人相似性。为了验证合成语音中音色的保留，我们从VoxCeleb1测试集[Nagrani et al.，2017]使用与上述相同的洗牌方法，并使用Chen等人基于WavLM的说话人验证模型获得其说话人嵌入。[2022c].我们在图3中绘制了25个说话者的地面实况和合成语音的说话人嵌入[Van der Maaten和Hinton，2008]。

图3.来自VoxCeleb1测试集（25个扬声器）的扬声器嵌入的t-SNE可视化，用于合成和地面实况语音。

我们观察到，来自同一说话人的地面真值和合成语音的嵌入可靠地聚集在一起，这支持了Seed-TTS生成的语音质量和说话人相似性与真实人类语音非常相似的发现。

3.2 Speaker微调

我们在基础Seed-TTS预训练模型之上执行扬声器微调（SFT）。在这个实验中，我们选择了5位说话者（3位女性和2位男性），每个人的语音数据从1到10小时不等。我们使用Seed-TTS的组合数据（总共20小时）对Seed-TTS进行了微调，并集成了一个额外的说话人索引标记，以在推理过程中选择目标说话人的音色。对于这些选定的演讲者，我们使用WER和SIM客观指标以及主观CMOS研究来评估微调模型（Seed-TTSSFT）与基本预训练模型（Seed-TTSICL）生成的语音。对于基本模型，随机抽样的20秒语音片段用作每个扬声器的音频提示。扬声器微调实验的结果见表3。

与Seed-TTSICL相比，微调模型在客观指标上表现出相似的性能，但在主观评估中表现出优势，CMOS得分为+0.37。我们的实证观察表明，微调的Seed-TTSSFT模型捕捉到了目标说话者的更多细微差别，例如句子末尾的细微韵律变化和独特的发音模式。

Table 3:Comparison between Seed-TTS_ICLand Seed-TTS_SFT.

通过指令微调实现可控性。为了进一步实现扬声器微调模型的可控性，我们尝试集成附加指令微调（IFT）[Yi et al.，2022b，2019，Zhuang et al.，2021，邓等人.，2023]。IFT使模型能够灵活地控制生成语音的各个方面，例如表现力、语速、风格、情感等。在本报告中，我们仅以情绪控制为例进行展示。

为了验证情绪的可控性，我们训练了一个类似于Chen等人的语音情绪识别（SER）模型。[2022c]，选择了四种主要情绪（即愤怒、快乐、悲伤和惊讶），并测量了合成语音预测情绪的准确性。我们为每种情绪生成并评估了100条话语，其中合成文本的主题旨在匹配目标情绪。

结果总结在表4中。我们发现，即使没有明确的控制信号，Seed-TTSSFT在情绪控制方面仍然获得了中等的准确性。我们推测这是因为该模型能够根据提供的文本内容推断出适当的目标情绪。当与额外的控制信号结合使用时，可以显著提高精度。本页演示了这些示例。

Table 4:Comparison of emotion control accuracy (↑) between Seed-TTS_SFTand Seed-TTS_IFT.

3.3低延迟推理和流式处理

从多个角度来看，TTS模型在实际应用中的部署带来了一些实际挑战。例如，在基于聊天的应用程序中，延迟和第一个数据包延迟对于用户体验至关重要。时间和内存中的计算成本对于服务并发性至关重要。与传统的TTS模型相比，Seed-TTS采用的模型尺寸明显更大，为部署带来了额外的障碍。为了解决这些挑战，我们采用了各种技术来降低推理成本和延迟[Dao et al.，2022，Ainslie et al.，2023，Luo et al.，2023，Lin et al.，2023]。具体来说，我们解决了模型部署的三个方面。首先，实现因果扩散架构，在扩散模块中实现流式处理，显著降低处理延迟和首包延迟;其次，我们采用稠度蒸馏法[Song et al.，2023]和改进的流匹配算法Esser等人。[2024]降低扩散模型的计算成本。另一方面，我们研究了在语言模型方面减少内存和计算消耗的常用方法，例如分组查询注意力[Ainslie et al.，2023]，paged attention [Kwon et al.，2023]，闪光注意力[Dao et al.，2022，Dao，2023]和模型量化[Nagel et al.，2021，Guo et al.，2024]。因此，优化后的模型在主观和客观测试中都实现了与§3.1中描述的离线模型相当的性能，并显著降低了延迟、计算和内存消耗，如表5所示。

表5：已部署模型与离线模型之间的比较。

4模型扩展

我们进一步提出了对Seed-TTS模型的两个扩展，以提高其性能并扩大其适用性。最初，我们引入了一种旨在提高音色可控性的自蒸馏方法。随后，我们建议使用强化学习来全面提高模型的能力。

4.1通过自蒸馏进行语音分解

语音分解是指将语音分解为各种独立的、不纠缠的属性的过程。此功能使TTS系统能够灵活地合成来自不同扬声器的音色、韵律和内容的不同组合的语音，这对于零样本语音转换和分比式零样本TTS等应用至关重要。大多数先前的方法都是通过特征工程实现属性解纠缠的[Chen et al.，2023，Wang et al.，2023a，Liu et al.，2021，Anastassiou et al.，2024，Lee et al.，2023，Choi et al.，2024]，特定损失函数[Ju et al.，2024，Jia et al.，2022]，或精确的网络架构调优[Qian et al.，2019，波波夫等人。，2021，Jia et al.，2022]。然而，将这些方法集成到像Seed-TTS这样的通用语音生成系统中可能具有挑战性。

我们提出了一种实现属性解纠缠的自蒸馏方案。这种方法的核心原理是创建受控语音对，这些语音对共享大多数信息，但在一个或多个特定目标属性上有所不同。利用这些数据对，以及对模型架构的微小更新，使Seed-TTS模型能够实现高质量的属性解纠缠。鉴于Seed-TTS几乎可以为任何扬声器生成高质量的零样本，因此生成具有不同目标属性的这些数据对非常简单。在这份报告中，我们特别强调了音色解开纠缠的过程和结果。

我们注意到，在Seed-TTS生成过程中，通过在扩散模块中引入说话人扰动，我们能够获得具有相同内容和韵律模式但音色变化的合成语音。我们将原句和音色改变的句子分别表示为Sori和Salt。

我们使用这些增强的合成数据对在Seed-TTS系统中重新训练扩散模型。具体来说，在训练期间，从Salt中提取的令牌被用作网络的输入。从Sori中提取的音色参考也被集成为扩散输入的一部分。该网络经过优化，可以恢复从Sori中提取的声码器嵌入。值得注意的是，Salt和Sori具有相同的内容和韵律，但音色不同。要恢复Sori，网络必须忽略Salt标记序列中嵌入的音色，而完全依赖提供的音色嵌入。这种方法允许我们使用额外的音色参考来修改音色，同时保留原始内容和韵律。我们发现，这种简单的方法使Seed-TTS系统能够实现高质量的音色解缠。

我们报告了所提出的通过零样本语音转换的解纠缠方法的有效性

（VC）任务[Wang et al.，2023a]。零样本VC涉及将源语音的说话者身份更改为新的目标音色，同时保留其口语内容。拟议的VC管道示意图如图4所示。在此设置中，VC实验中仅涉及Seed-TTS管道的扩散模块，因为内容和韵律由源语音决定。

Figure 4:The diagram for zero-shot voice conversion in Seed-TTS system.

我们介绍了一个基于§3.1中的目标测试集的零样本语音转换评估测试集。具体来说，对于每个话语，我们随机选择一个不匹配的说话人作为音色参考。此测试仪配置与零样本ICL测试仪一起发布。我们在这个测试集上进行了基准实验，以评估我们提出的方法的有效性。我们选择了开源SOTA方法进行比较，包括HierSpeech++ [Lee et al.，2023]和DiffVC [Popov et al.，2021]。由于这两种方法仅使用英语数据进行训练，因此我们将评估限制在英语测试子集上。

结果如表6所示。我们发现，我们提出的自蒸馏方法通过增强的音色解缠，显著改善了SIM指标，同时在所有其他维度上也优于预先存在的方法。我们准备了各种各样的音频示例，可以在此页面找到。

4.2通过强化学习的偏好

RL已被证明是文本和图像处理中的一种有效学习范式[Schulman et al.，2017，拉菲洛夫等人。，2024，Sutton et al.，1999，Esser et al.，2024，华莱士等人。，2023]。最近的研究表明，直接偏好优化（DPO）可以扩展到音乐和语音生成[Cideron et al.，2024，Zhang et al.，2024]。

Table 6.Evaluation results on zero-shot voice conversion. The results of DiffVC [Popov et al.,2021] and HierSpeech++ [Lee et al.,2023] are obtained via their respective released official checkpoints.

受这些发现的启发，我们探索了与先前研究类似的RL方法[Ahmadian等人。，2024，Prabhavalkar等人。，2018，Wang et al.，2024b，Sutton et al.，1999，Schulman et al.，2017]以增强Seed-TTS的各个方面。我们将利用外部奖励模型（如近端策略优化和REINFORCE）的RL方法与不使用外部奖励模型（如DPO）的RL方法进行了比较。我们的研究结果表明，这两种方法都是有效的。前者允许对特定的语音属性进行清晰的控制，而后者则受益于更简单的实现。在本报告中，我们展示了前一种方法的有效性。

具体来说，我们使用REINFORCE使用不同的奖励函数在原始零样本ICL模型（Seed-TTSICL）的基础上微调两个版本：Seed-TTSRL-SIM-WER，它使用SIM和WER目标指标作为奖励来提高说话人的相似性和鲁棒性，以及Seed-TTSRL-SER，它使用SER模型的准确性作为奖励来提高情绪可控性。我们再次使用§3.1中提到的相同的客观和主观测试集来验证RL在我们系统中的贡献。此外，还为评估准备了一个新的“硬”文本测试集，由400个句子组成，这些句子对于单词重复、绕口令等自回归模型具有特别具有挑战性的模式。我们在表7、表8和表9中报告了客观和主观评估的结果。音频示例可在此页面找到。

表8：Seed-TTSRL-SIM-WER和Seed-TTSICL之间的主观评价结果。

从表7和表8中，我们观察到RL在主观和客观测试中的好处，从而提高了语音ICL任务的稳定性和说话人相似性。在表9中，我们发现，尽管与§3.2中说话人微调的Seed-TTSSFT模型相比，零样本Seed-TTSRL-SER模型的情绪可控性有所降低，但与Seed-TTSICL相比，RL的应用显着提高了各种情绪的情绪控制准确性。此增强功能突出了集成RL技术以提高语音合成模型中情感表达和控制性能的有效性。

我们观察到奖励黑客攻击，这是RL的一个众所周知的问题[Amodei et al.，2016]，在我们的工作中。例如，为了实现更低的WER，模型倾向于生成更慢、更清晰的发音，这导致了自然性的牺牲。这一观察结果与§3.1中的发现一致，其中过低的WER通常会导致更“标准化”但不太自然的语音。需要仔细的网络调优才能实现最佳性能，以平衡RL提供的这些权衡。

表9.使用第3.2小节中的情绪集比较Seed-TTSRL-SER和Seed-TTSICL在零镜头场景中的情绪控制精度（↑）。

4.3完全基于扩散的语音生成

语言建模和扩散模型是多媒体生成的两种主要方法。

之前的几部作品直接比较了它们在图像和视频生成方面的表现[Yu et al.，2023]，但我们认为语音和音频生成的这种比较仍然有限。为了进一步了解这两种建模方法的特点，我们提出了一种仅基于扩散的Seed-TTS模型的变体，表示为Seed-TTSDiT。在这种变化中，我们消除了扩散模型和声学分词器之间的依赖关系，使得扩散模型完全基于输入文本直接将高斯噪声转换为声码器的潜在表示。

我们根据经验发现，包括一个额外的持续时间预测模型，如江等人。[2023]，任等人。[2019]，以及Le等人。[2024]导致合成语音的自然性降低。因此，在Seed-TTSDiT的修改设计中，我们直接在扩散模型中采用端到端处理。与估计音素级别的持续时间相反，该模型事先估计生成的语音的总持续时间。然后对模型进行优化，以估计音频和文本之间的局部对齐。通过这种方式，Seed-TTSDiT可以动态调整每个音素的持续时间，从而产生高度自然的语音。

我们发现，如果训练得当，Seed-TTSDiT能够预测输入语音的适当总持续时间。但是，我们没有以这种方式进行训练，而是选择直接向模型提供总持续时间，这启用了几个可用于内容编辑和语速编辑的其他理想属性。为此，在训练过程中，扩散模型接收音频提示、目标文本和高斯噪声片段以及每个样本的总持续时间，并预测具有相同总持续时间的生成语音的潜在表示，然后由声码器将其转换为波形。

与采用下一个标记语言建模的方法相比，纯扩散模型的流水线更简单。作为非流媒体模型，Seed-TTSDiT自然支持内容编辑的应用[Wang et al.，2023c，Le et al.，2024，江等人.，2023]，如图5所示。话虽如此，语言建模方法具有流式处理的优势，并且能够与基于文本的语言模型集成。

图5.完全基于扩散的模型Seed-TTSDiT，支持语音内容编辑。在这个例子中，我们将原语音中的“猫”一词替换为“狗”一词。

我们使用与§3.1相同的测试集来评估零样本TTS任务中的Seed-TTSDiT，并在表10中显示评估结果。我们发现，基于完全扩散的方法在SIM中取得了优异的性能，同时在WE方面取得了与Seed-TTSICL相似的结果。这一发现表明扩散模型固有的序列建模能力很强。

内容编辑和语速编辑。我们在两个语音编辑任务上进一步评估了Seed-TTSDiT：内容编辑和语速编辑。我们使用§3.1中使用的测试集样本的真值对应物进行这些实验。

在内容编辑任务中，我们屏蔽一定比例的音频，并使用模型根据每个测试样本提供的文本恢复屏蔽部分。我们继续采用WER和SIM作为客观的评估指标。具体来说，我们根据恢复的音频和原始音频计算SIM卡指标，以确定恢复的音频是否与原始扬声器相似。评估结果如图6所示。我们在此页面上提供了各种音频示例。

表10.零样本TTS的客观评估结果。Seed-TTSDiT在稳定性和扬声器相似性方面都表现出优势。

在语速编辑任务中，我们只需将每个测试示例与修改后的总持续时间重新合成。具体来说，我们通过将速度乘以原始话语持续时间来获得句子的最终持续时间。与内容编辑任务相同，我们使用WER和SIM作为客观评估指标。结果如图7所示。

从我们的演示中可以明显看出，该模型可以仅根据不同的总持续时间自动调整语速。例如，当将语音拉伸到更长的总持续时间时，模型将根据输入文本在适当的时刻自动插入静音，或者拉伸某些元音的发音，同时将整体语速保持在自然范围内。通过这种方式，与这些任务的传统方法相比，输出语音产生了更好的自然性和说话者的相似性，这些任务统一地改变了整个句子的语速。

Figure 6:Seed-TTS_DiTexhibits robustness across various masked rates in content editing.

Figure 7.Seed-TTS_DiTis capable of synthesizing speech of different speeds with high speaker similarity. The WER shows a slight degradation when the speed rate is too high.

5模型应用、局限性和安全性

Seed-TTS模型系列能够创建高度富有表现力和跨语言的语音传输，支持多种应用程序的升级，包括语音聊天、有声读物和内容创建。此外，凭借其高保真情境学习，Seed-TTS增强了跨越语言障碍的可访问性，并为言语障碍患者提供了潜在的解决方案[OpenAI，2024]。如§3.1所述，Seed-TTS还可以作为增强和统一语音理解和生成模型的潜在桥梁。我们在此页面演示了一些潜在的应用。

尽管功能强大，但Seed-TTS仍存在一些局限性。尽管观察到了紧急行为，但该模型有时在需要细致入微的情感和上下文理解的场景中存在局限性。此外，尽管使用了大量数据进行训练，但在场景覆盖率方面仍有改进的余地。例如，当前的Seed-TTS模型在唱歌或给出包含背景音乐或过多噪音的提示时表现不佳，经常产生不一致的背景，例如完全忽略音乐。

鉴于如果误用可能会产生有害的社会影响，我们在相关产品中实施了多种安全程序，以防止在该模型的整个开发和潜在部署过程中被滥用。例如，我们开发了一种针对语音内容和说话者音色的多步骤验证方法，以确保注册音频仅包含授权用户的声音。此外，我们还实现了多级水印方案，该方案强制包含在创建内容的各个级别中，例如视频背景水印和内容描述中的水印。

6引用参考

陈元哲，涂明，李唐，李昕，孔秋强，李佳欣，王志超，乔天，王玉萍，王宇轩.通过中间瓶颈功能和非流式教师指导进行流式语音转换。在ICASSP 2023-2023 IEEE声学、语音和信号处理国际会议（ICASSP）中，第1-5页。IEEE，2023年。

王志超，陈元哲，王新生，陈卓，谢磊，王玉萍，雨轩王。StreamVoice：用于实时零样本语音转换的可流式上下文感知语言建模。arXiv预印本arXiv：2401.11053，2024a。

王志超，陈元哲，谢磊，乔田，王玉萍.LM-VC：通过基于语言模型的语音生成实现零样本语音转换。IEEE信号处理快报，2023a。

鞠泽谦，王元成，沈凯，谭徐，辛德泰，杨东超，刘彦清，冷一冲，宋凯涛，唐思良，吴志正，秦涛，李向阳，叶伟，张世坤，江卞，何磊，李金玉，赵生.NaturalSpeech 3：使用分解编解码器和扩散模型的零样本语音合成，2024年。

Mateusz Łajszczak、Guillermo Cámbara、Yang Li、Fatih Beyhan、Aren van Korlaar、Fan Yang、Arnaud Joly、Álvaro Martín-Cortinas、Ammar Abbas、Adam Michalski等人。BASE TTS：在100k小时的数据上构建十亿参数文本转语音模型的经验教训。arXiv预印本arXiv：2402.08093，2024.

Kaizhi Qian、Yang Zhang、Shiyu Chang、Xuesong Yang和Mark Hasegawa-Johnson。自动VC：

零样本语音风格传输，仅自动编码器丢失。在机器学习国际会议中，第5210–5219页。PMLR，2019年。

江子悦，Yi任，叶振辉，刘静林，张晨，杨倩，季胜鹏，黄荣杰，王春峰，尹翔，et al. Mega-TTS：具有内在归纳偏差的大规模零样本文本到语音.arXiv预印本arXiv：2306.03509，2023.

莱斯利·帕克·凯尔布林、迈克尔·利特曼和安德鲁·摩尔。强化学习：一项调查。人工智能研究杂志，4：237–285，1996.

深度强化学习：概述.arXiv预印本arXiv：1701.07274，2017.

王成义，陈三元，吴宇，张子强，周龙，刘淑杰，陈卓，刘彦青，王华明，李金玉，何磊，赵晟，魏傅茹.神经编解码器语言模型是零样本文本到语音合成器，2023b。

张子强，周龙，王成义，陈三元，吴宇，刘淑杰，陈卓，刘彦清，王华明，李金玉，等.用自己的声音说外语：跨语言神经编解码器语言建模.arXiv预印本arXiv：2303.03926，2023.

高元、盛冈信之、张宇和陈南欣。E3 TTS：简单的基于端到端扩散的文本到语音。2023年IEEE自动语音识别和理解研讨会（ASRU），第1-8页。IEEE，2023a。

Zehua Chen，Yihan Wu，Yichong Leng，Jiawei Chen，Haohe Liu，Xu Tan，Yang Cui，Ke Wang，Lei He，Sheng Zhao，et al. ResGrad：文本到语音的残差去噪扩散概率模型.arXiv预印本arXiv：2212.14518，2022a。

贾斯汀·洛夫莱斯（Justin Lovelace）、索汉姆·雷（Soham Ray）、金光允（Kwangyoun Kim）、基利安·温伯格（Kilian Q Weinberger）和菲利克斯·吴（Felix Wu）。Simple-TTS：具有潜在扩散功能的端到端文本到语音合成。2023.

谭徐，陈佳伟，刘浩和，丛健，张晨，刘彦青，王习，冷一冲，易元豪，何磊，宋楚楚，秦涛，赵生，刘铁岩.NaturalSpeech：具有人类水平质量的端到端文本到语音合成，2022年。

Matthew Le，Apoorv Vyas，Bowen Shi，Brian Karrer，Leda Sari，Rashel Moritz，Mary Williamson，Vimal Manohar，Yossi Adi，Jay Mahadeokar，et al. Voicebox：Text-guided multilingual universal speech generation at scale.神经信息处理系统进展，36，2024.

杜晨鹏，郭一伟，沈飞宇，刘志军，梁郑，陈谢，王帅，许

张凯宇.UniCATS：一个统一的上下文感知文本到语音框架，具有上下文VQ扩散和声码。在AAAI人工智能会议论文集，第38卷，第17924–17932页，2024年。

Yi任，阮阳军，旭谭，秦涛，赵生，周和刘铁岩.FastSpeech：快速、可靠且可控的文本转语音。神经信息处理系统进展，32，2019.

易元豪，何磊，潘世峰，王习，张玉超.SoftSpeech：FastSpeech 2中的无监督持续时间模型。在INTERSPEECH，第1606-1610页，2022a。

易元豪，何磊，潘世峰，王习，和肖玉佳.ProsodySpeech：迈向神经文本转语音的高级韵律模型。在ICASSP 2022-2022 IEEE声学、语音和信号处理国际会议（ICASSP）中，第7582–7586页。IEEE，2022b。

Hugo Touvron，Thibaut Lavril，Gautier Izacard，Xavier Martinet，Marie-Anne Lachaux，Timothée Lacroix，Baptiste Rozière，Naman Goyal，Eric Hambro，Faisal Azhar，et al. LLaMA：开放高效的基础语言模型。arXiv预印本arXiv：2302.13971，2023.

阿希什·瓦斯瓦尼、诺姆·沙泽尔、尼基·帕尔马、雅各布·乌斯科雷特、利昂·琼斯、艾丹·戈麦斯、卢卡斯·凯撒和伊利亚·波洛苏欣。注意力就是你所需要的。神经信息处理系统进展，30，2017.

詹姆斯·贝克。通过缩放实现更好的语音合成。arXiv预印本arXiv：2305.07243，2023.

Rithesh Kumar、Prem Seetharaman、Alejandro Luebs、Ishaan Kumar和Kundan Kumar。具有改进的RVQGAN的高保真音频压缩。神经信息处理系统进展，36，2024.

Sang-gil Lee、Wei Ping、Boris Ginsburg、Bryan Catanzaro和Sungroh Yoon。BigVGAN：具有大规模训练的通用神经声码器。arXiv预印本arXiv：2206.04658，2022.

丛健，杨珊，谢磊，苏丹.Glow-WaveGAN：从基于GAN的变分自动编码器学习语音表示，以实现基于流的高保真语音合成。arXiv预印本arXiv：2106.10831，2021.

刘正熙和钱彦敏。Basis-MelGAN：基于音频分解的高效神经声码器。arXiv预印本arXiv：2106.13419，2021.

王宇轩、黛西·斯坦顿、张宇、RJ-Skerry Ryan、埃里克·巴滕伯格、乔尔·肖尔、肖颖、叶佳、任飞飞和里夫·阿·索鲁斯。风格标记：端到端语音合成中的无监督风格建模、控制和传输。在机器学习国际会议上，第5180–5189页。PMLR，2018年。

博尔索斯·扎兰、马里尼尔·拉斐尔、文森特·达米安、哈里托诺夫·尤金、皮特昆·奥利维尔、沙里菲·马特、特布尔·奥利维尔、塔利亚萨基·马可和泽吉杜尔·尼尔。AudioLM：音频生成的语言建模方法，2022年。

罗莎娜·阿迪拉、梅根·布兰森、凯利·戴维斯、迈克尔·亨雷蒂、迈克尔·科勒、乔什·迈耶、鲁本·莫赖斯、林赛·桑德斯、弗朗西斯·泰尔斯和格雷戈尔·韦伯。Common Voice：一个大规模的多语言语音语料库。arXiv预印本arXiv：1912.06670，2019.

郭廷伟，程温，江东伟，罗娴，张瑞雄，赵帅江，李武波，

Cheng Gong，Wei Zou，Kun Han，et al. DiDiSpeech：一种大规模的普通话语音语料库。在

ICASSP 2021-2021 IEEE声学、语音和信号处理国际会议（ICASSP），第6968–6972页。IEEE，2021年。

亚历克·拉德福德、金钟旭、徐涛、格雷格·布罗克曼、克里斯汀·麦克利维和伊利亚·萨茨克弗。

通过大规模弱监督实现鲁棒的语音识别。在机器学习国际会议中，第28492–28518页。PMLR，2023年。

Zhifu Gao，Zerui Li，Jiaming Wang，Haoneng Luo，Xian Shi，Mengzhe Chen，Yabin Li，Lingyun Zuo，Zhihao Du，Zhangyu Xiao，et al. FunASR：A fundamental end-to-end speech recognition toolkit.arXiv预印本arXiv：2305.11013，2023b。

陈正阳，陈三元，吴宇，姚倩，王成毅，刘淑杰，钱彦敏，以及

曾国藩。大规模自监督语音表示学习，用于自动说话人验证。ICASSP 2022-2022 IEEE声学、语音和信号处理国际会议（ICASSP），第6147–6151页。IEEE，2022b。

Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, et al. WavLM: Large-scale self-supervised pre-training for full stack speech processing.IEEE Journal of Selected Topics in Signal Processing, 16(6): 1505–1518, 2022c.

宋亚坤，陈卓，王晓飞，马子阳，谢晨.ELLA-V：具有比对引导序列重新排序的稳定神经编解码器语言建模。arXiv预印本arXiv：2401.07333，2024.

Yi任，Chenxu胡，Xu Tan，Tao Qin，Sheng Zhao，周Zhao，and Tie-Yan Liu.FastSpeech 2：快速、高质量的端到端文本转语音。arXiv预印本arXiv：2006.04558，2020.

沈凯，鞠泽谦，谭徐，刘彦庆，冷一冲，何磊，秦涛，赵生，江卞.NaturalSpeech 2：潜在扩散模型是自然和零样本语音和歌唱合成器，2023年。

刘正熙，乔天，胡晨旭，刘旭东，吴梦林，王玉萍，赵航，

王宇轩.可控且无损的非自回归端到端文本转语音。arXiv预印本arXiv：2207.06088，2022.

瓦西尔·帕纳约托夫、陈国国、丹尼尔·波维和桑吉夫·胡丹普尔。LibriSpeech：基于公共领域有声读物的ASR语料库。2015年IEEE声学、语音和信号处理国际会议（ICASSP），第5206-5210页。IEEE，2015年。

张斌斌，吴迪，彭振东，宋星辰，姚卓元，吕航，谢磊，赵

杨福平，牛建伟.WeNet 2.0：更高效的端到端语音识别工具包。arXiv预印本arXiv：2203.15455，2022.

Sehoon Kim、Amir Gholami、Albert Shaw、Nicholas Lee、Karttikeya Mangalam、Jitendra Malik、Michael W Mahoney和Kurt Keutzer。Squeezeformer：用于自动语音识别的高效转换器。神经信息处理系统进展，35：9361–9373，2022.

李金瑜，赵锐，陈卓，刘昌良，熊晓，叶国立，龚一凡.通过师生学习开发远场扬声器系统。2018年IEEE声学、语音和信号处理国际会议（ICASSP），第5699-5703页。IEEE，2018年。

Arsha Nagrani、Joon Son Chung和Andrew Zisserman。VoxCeleb：一个大规模的说话者识别数据集。arXiv预印本arXiv：1706.08612，2017.

劳伦斯·范德马滕（Laurens Van der Maaten）和杰弗里·辛顿（Geoffrey Hinton）。使用t-SNE可视化数据。机器学习研究，9（11），2008.

Yuan-Hao Yi，Yang Ai，Zhen-华Ling，and Li-Rong Dai.使用深度自回归神经网络进行声学建模的歌唱语音合成。arXiv预印本arXiv：1906.08977，2019.

庄晓斌，江涛，周子瑜，吴斌，胡鹏，吕西蒙.LiteSing：朝着快速、轻量级和富有表现力的歌声合成迈进。在ICASSP 2021-2021 IEEE声学、语音和信号处理国际会议（ICASSP）中，第7078–7082页。IEEE，2021年。

邓阎，周龙，易元豪，刘淑杰，和何磊.韵律感知SpeechT5用于表达性神经TTS。在ICASSP 2023-2023 IEEE声学、语音和信号处理国际会议（ICASSP）中，第1-5页。IEEE，2023年。

Tri Dao、Dan Fu、Stefano Ermon、Atri Rudra和Christopher Ré。FlashAttention：具有IO感知功能的快速且记忆高效的精确注意力。神经信息处理系统进展，35：16344–16359，2022.

约书亚·安斯利、詹姆斯·李-索普、米歇尔·德容、尤里·泽姆良斯基、费德里科·勒布隆和苏米特·桑海。GQA：从多头检查点训练广义多查询转换器模型。arXiv预印本arXiv：2305.13245，2023.

Simian Luo，Yiqin Tan，Longbo Huang，Jian Li，and Hang Zhao.潜在一致性模型：通过几步推理合成高分辨率图像。arXiv预印本arXiv：2310.04378，2023.

林姬、唐佳明、唐昊天、尚阳、邓星宇、宋汉.AWQ：用于llm压缩和加速的Activationaware权重量化。arXiv预印本arXiv：2306.00978，2023.

Yang Song、Prafulla Dhariwal、Mark Chen和Ilya Sutskever。一致性模型。arXiv预印本arXiv：2303.01469，2023.

Patrick Esser、Sumith Kulal、Andreas Blattmann、Rahim Entezari、Jonas Müller、Harry Saini、Yam Levi、Dominik Lorenz、Axel Sauer、Frederic Boesel等。arXiv预印本arXiv：2403.03206，2024.

Woosuk Kwon、Zhuohan Li、Siyuan Zhuang、Ying Sheng、Lianmin Zheng、Cody Hao Yu、Joseph Gonzalez、Hao Zhang和Ion Stoica。为大型语言模型提供高效的内存管理，并提供pagedattention。第29届操作系统原理研讨会论文集，第611–626页，2023年。

三道。FlashAttention-2：更快的注意力，更好的并行性和工作分区。arXiv预印本arXiv：2307.08691，2023.

马库斯·内格尔、马里奥斯·富纳拉基斯、拉纳·阿里·阿姆贾德、叶利塞·邦达连科、马特·范·巴伦和蒂门·布兰克沃特。神经网络量化的白皮书。arXiv预印本arXiv：2106.08295，2021.

郭毅，孔凡柳，李晓阳，李辉，陈伟，田晓刚，蔡金平，张扬，刘守达. decoupleq：通过将参数解耦为整数和浮点来实现2位训练后均匀量化。arXiv预印本arXiv：2404.12759，2024.

刘颂祥，曹跃文，王迪松，吴昕欣，刘寻英，孟海伦.任意到多语音转换，具有位置相对序列到序列建模。IEEE/ACM音频、语音和语言处理汇刊，29：1717–1728,2021年。

Philip Anastassiou, Zhenyu Tang, Kainan Peng, Dongya Jia, Jiaxin Li, Ming Tu, Yuping Wang, Yuxuan Wang, and Mingbo Ma. VoiceShop: A unified speech-to-speech framework for identitypreserving zero-shot voice editing.arXiv preprint arXiv:2404.06674, 2024.

Sang-Hoon Lee、Ha-Yeong Choi、Seung-Bin Kim和Seong-Whan Lee。HierSpeech++：通过分层变分推理弥合语音语义和声学表示之间的差距，实现零样本语音合成。arXiv预印本arXiv：2311.12454，2023.

Ha-Yeong Choi、Sang-Hoon Lee和Seong-Whan Lee。DDDM-VC：具有解纠缠表示和先验混混的解耦去噪扩散模型，用于验证鲁棒语音转换。在AAAI人工智能会议论文集，第38卷，第17862–17870页，2024年。

贾东亚，乔田，彭凯南，李佳欣，陈元哲，马明波，王玉萍，和

王宇轩.使用伪暹罗解纠缠网络的零样本重音转换。arXiv预印本arXiv：2212.05751，2022.

瓦迪姆·波波夫、伊万·沃夫克、弗拉基米尔·戈戈里扬、塔斯尼玛·萨德科娃、米哈伊尔·库迪诺夫和建生

魏。基于扩散的语音转换，具有快速的最大似然采样方案。arXiv预印本arXiv：2109.13821，2021.

约翰·舒尔曼、菲利普·沃尔斯基、普拉富拉·达里瓦尔、亚历克·拉德福德和奥列格·克里莫夫。近端策略优化算法。arXiv预印本arXiv：1707.06347，2017.

拉斐尔·拉法洛夫、阿奇特·夏尔马、埃里克·米切尔、克里斯托弗·曼宁、斯特凡诺·埃尔蒙和切尔西·芬恩。直接偏好优化：你的语言模型是一个秘密的奖励模型。神经信息处理系统进展，36，2024.

理查德·萨顿、大卫·麦卡莱斯特、萨廷德·辛格和伊谢·曼苏尔。基于函数逼近的强化学习的策略梯度方法。神经信息处理系统进展，12，1999.

布拉姆·华莱士、邓美华、拉斐尔·拉菲洛夫、周林琪、娄亚伦、森蒂尔·普鲁什瓦卡姆、斯特凡诺·埃尔蒙、熊采明、沙菲克·乔蒂和尼基尔·奈克。使用直接偏好优化的扩散模型对齐。arXiv预印本arXiv：2311.12908，2023.

Geoffrey Cideron、Sertan Girgin、Mauro Verzetti、Damien Vincent、Matej Kastelic、Zalán Borsos、Brian McWilliams、Victor Ungureanu、Olivier Bachem、Olivier Pietquin等人。arXiv预印本arXiv：2402.04229，2024.

张东，李兆伟，李世民，张新，王鹏宇，周亚倩，邱西鹏.SpeechAlign：使语音生成与人类偏好保持一致。arXiv预印本arXiv：2404.05600，2024.

阿拉什·艾哈迈迪安、克里斯·克雷默、马蒂亚斯·加莱、马齐耶·法达伊、朱莉娅·克罗伊策、艾哈迈德·乌斯廷和萨拉·胡克。返璞归真：重新审视REINFORCE风格优化，从LLM中的人类反馈中学习。arXiv预印本arXiv：2402.14740，2024.

Rohit Prabhavalkar、Tara N Sainath、Yonghui Wu、Patrick Nguyen、Zhifeng Chen、Chung-Cheng Chiu和Anjuli Kannan。基于注意力的序列到序列模型的最小单词错误率训练。2018年IEEE声学、语音和信号处理国际会议（ICASSP），第4839-4843页。IEEE，2018年。

王子豪、奇拉格·纳帕尔、乔纳森·贝兰特、雅各布·爱森斯坦、亚历克斯·达莫尔、三美·科耶霍和

维克多·维奇（Victor Veitch）。转换和组合对齐大型语言模型的奖励。arXiv预印本arXiv：2402.00742，2024b。

达里奥·阿莫迪、克里斯·奥拉、雅各布·斯坦哈特、保罗·克里斯蒂安诺、约翰·舒尔曼和丹·马内。人工智能安全中的具体问题。arXiv预印本arXiv：1606.06565，2016.

Lijun Yu，José Lezama，Nitesh B Gundavarapu，Luca Versari，Kihyuk Sohn，David Minnen，Yong Cheng，Agrim Gupta，Xiuye Gu，Alexander G Hauptmann，et al.语言模型节拍扩散分词器是视觉生成的关键。arXiv预印本arXiv：2310.05737，2023.

Xiaofei Wang、Manthan Thakker、Zhuo Chen、Naoyuki Kanda、Sefik Emre Eskimez、Sanyuan Chen、Min Tang、Shujie Li、Jinyu Li和Takuya Yoshioka。SpeechX：作为多功能语音转换器的神经编解码器语言模型。arXiv预印本arXiv：2308.06873，2023c。

OpenAI的。驾驭合成语音的挑战和机遇。https://openai.com/index/navigating-the-challenges-and-opportunities-of-synthetic-voices，2024年。

7作者（按字母顺序排列）

8致谢

我们向团队致以最深切的感谢，他们的奉献精神和专业知识对该项目的成功至关重要。特别感谢我们杰出的音频理解团队和工程团队的技术实力;我们的数据团队，他们在数据收集、注释和处理方面的勤奋努力是不可或缺的;我们的项目运营团队无缝提供指导;以及我们的评估团队，感谢他们严格的测试和富有洞察力的反馈。每个团队的独特贡献都有助于使这项研究取得成果，他们的集体努力确实是无价的。

9 附录Seed-TTS：一系列高质量的多功能语音生成模型报告

Seed TeamByteDance

抽象。我们介绍了Seed-TTS，这是一个大规模自回归文本转语音（TTS）模型系列，能够生成与人类语音几乎没有区别的语音。Seed-TTS作为语音生成的基础模型，在语音上下文学习方面表现出色，在说话人的相似性和自然性方面取得了与客观和主观评估中基本人类语音相匹配的表现。通过微调，我们在这些指标上获得了更高的主观分数。Seed-TTS对各种语音属性（如情感）具有卓越的可控性，并且能够为野外的说话者生成高度富有表现力和多样化的语音。此外，我们提出了一种用于语音分解的自蒸馏方法，以及一种增强模型鲁棒性、说话人相似性和可控性的强化学习方法。我们还提出了Seed-TTS模型的非自回归（NAR）变体，名为Seed-TTSDiT，它利用完全基于扩散的架构。与以前基于NAR的TTS系统不同，Seed-TTSDiT不依赖于预先估计的音素持续时间，而是通过端到端处理来执行语音生成。我们证明了该变体在客观和主观评估中都实现了与基于语言模型的变体相当的性能，并展示了其在语音编辑中的有效性。

9.1系统概述

图1.Seed-TTS推理流水线概述。（1）语音分词器从参考语音中学习分词。（2）自回归语言模型根据条件文本和语音生成语音标记。（3）扩散变压器模型以从粗到细的方式在给定生成的语音标记的情况下生成连续的语音表示。（4）声学声码器从扩散输出中产生更高质量的语音。

9.2零样本情境学习

欢迎光临链载Ai (https://www.lianzai.com/)