链载Ai

标题: GLM-TTS技术报告:基于多奖励强化学习的可控发音语音合成 [打印本页]

作者: 链载Ai    时间: 3 天前
标题: GLM-TTS技术报告:基于多奖励强化学习的可控发音语音合成


今天,我们正式发布工业级语音合成系统 GLM-TTS,并在 Hugging Face 和 ModelScope 上开放模型权重。


基于在数据筛选、基础模型结构、精品音色监督微调(SFT)范式和强化学习(RL)范式等多方面创新,GLM-TTS 仅在 10w 小时数据上训练,便具备了“3 秒”音色复刻和超强文本理解能力,字错误率和情感表达在多个开源测试集上实现开源 SOTA。


即刻起,用户可在 Z.ai(audio.z.ai)、智谱清言 APP/网页版(chatglm.cn)上体验 GLM‑TTS ;在开放平台 BigModel 上调用模型 API。欢迎广大开发者、企业、用户广泛测试与集成。


在这篇技术博客中,我们主要介绍 GLM-TTS 的语音合成效果和技术概况。


效果展示

1.方言克隆





2.多情感克隆



3.精品音色文本理解


根据文本内容的情绪,自动匹配对应的语音情感。



整体系统


GLM-TTS 是一套基于两阶段生成范式的高质量语音合成系统,由Text-to-token Auto-regression与Token-to-wav Diffusion两大核心模块构成。


1. 核心架构与工作流

GLM-TTS 的生成流程主要分为两个阶段:



2. 关键技术突破

GLM-TTS 在模型训练、发音控制及表现力优化等方面实现了多重创新:



3. 技术细节与演进


接下来,我们将从以下六个维度详细拆解 GLM-TTS 的技术实现:


数据处理 Pipeline、Speech Tokenizer、强化学习、精品音色定制(LoRA)、精细化发音控制、2D-Vocos 声码器。


1)数据处理 pipeline


结合自有音频数据,我们构建了完善的数据处理 pipeline,整体流程如下:



2)Speech tokenizer 更新

GLM-TTS 基于 GLM-4-Voice 的 Whisper-VQ speech tokenizer,进行以下优化,提升发音准确性、自然度和表现力:



实验结果:


Image

注:值表示 WER 或 CER,越低越好。*表示胶辽地区重口音普通话。



Image


3)多奖励融合强化学习

当前强化学习在语音合成领域尚未得到广泛应用,核心瓶颈在于奖励机制设计难度大、训练过程易出现梯度消失或模型负优化等问题。GLM-TTS 通过引入 GRPO 强化学习范式和一系列精细设计,显著提升了预训练模型和 SFT 模型的基础能力(含发音准确性、音色相似度等核心指标)和拟人化程度(涵盖情感表达精度、副语言自然度等高阶需求)。



核心方案及创新亮点如下,整体采用 GRPO 算法框架,通过三大创新性设计实现性能跃升:



强化学习采用了训练数据与合成数据相结合的数据构造模式,实现了几乎零成本的数据生成。结合训练算法的优化,有效避免了奖励欺骗(reward hacking),从而保证了模型性能的真实性和泛化能力,在未见过的测试集上同样取得了理想效果。


实验结果:


在seed-tts-eval 中文测试集中,我们的预训练阶段模型(GLM-TTS、GLM-TTS_RL)以 “提升零样本音色克隆发音准确度(CER)+ 音色相似度(Sim)” 为核心优化目标。实验表现如下:



Image


在 SFT 阶段,我们聚焦文本理解能力和情感表达。在 CV3-eval-emotion 测试集的 text_related 中文数据集(文本自带情感倾向)中,GLM-TTS SFT 精品音色模型聚焦情感表达,对比市面商用 TTS 大模型展现出显著优势:



Image


4)精品音色定制(LoRA)

在语音大模型的 SFT 流程中,全参微调受数据分布与质量不均影响,难以形成稳定通用范式,人力、工程及评测成本高昂,且无法满足小批量个性化精品音色定制的落地需求。


因此,我们引入并优化了 LoRA 微调训练范式。



5)精细化发音控制(Phoneme-in)

在教育评测、专业配音及有声读物等对发音准确性要求极高的严肃应用场景中,多音字(如“行”xíng/háng) 和生僻字的自动发音歧义是传统 TTS 模型的关键挑战。模型通常依赖内部语言模型进行推断,但缺乏外部强制干预机制,易导致发音错误和应用体验受损。


我们提出了Phoneme-in 可控读音增强能力,通过引入音素级(Phoneme-level)输入,实现对模型发音的精准、定向控制:


a.关键组成部分:


b.训练阶段:

c.推理阶段:


6)2D-Vocos 声码器


Image


针对声码器核心效果提升,重点开展两方面优化,输入为 50Hz Mel 频谱、输出为 32k 高采样率 WAV:








欢迎光临 链载Ai (http://www.lianzai.com/) Powered by Discuz! X3.5