导读随着人工智能技术的不断进步,语音合成技术在游戏和娱乐领域扮演着越来越重要的角色。本次分享题目为“腾讯游戏知几语音合成大模型推理加速实践”,主要介绍腾讯在语音合成领域的产品展示、模型结构分析、推理加速方案以及未来展望。
2.模型结构选型与分
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">3.模型推理加速方案ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">4.未来展望出品社区|DataFun
01
文本问答:
输入方式:玩家通过文本输入问题或指令。
输出方式:系统利用人工智能技术处理后,返回相应的文本回答。
语音交互:
输入方式:玩家通过语音与 AI 语音助手进行交流。
输出方式:系统经过 AI 处理后,以语音形式回应玩家。
多模态 NPC(非玩家角色):
输入方式:玩家可以通过文本或语音与 NPC 进行互动。
输出方式:系统经过 AI 处理后,NPC 可以返回文本、语音、肢体动作、面部表情和口型动作等多种形式的数据,提供更加丰富和自然的交互体验。
模型结构选型与分析
1. 语音合成大模型结构
2. 面临的挑战
模型推理加速方案
1. KV Cache
Attention 输出的第 n 行只与第 n 个 Query (Q)相关:这意味着每个 Token 的输出只依赖于当前 Token 的 Query 和之前所有 Token 的 Key (K) 和 Value (V)。
第 1 到第 n 个 Token 的 Attention 计算包含第 1 到第 n-1 个 Token 的Attention 计算:这意味着每次计算新的 Token 时,可以复用之前 Token 的 K 和 V 值,而不需要重新计算。
每次 Attention 的计算都使用前面的 K 和 V:每次生成新的 Token 时,只需计算新 Token 的 K 和 V 值,并结合之前缓存的 K 和 V 值进行计算。
2. GQA
4. 连续性批处理
训练时采用的方案一
推理时采用的方案二
5. 推理加速效果
未来展望
引入投机采样技术:我们将探索将投机采样方法应用于大型语音合成模型的可能性。通过这种技术,可以在生成过程中提前预测并选择最有可能的输出路径,从而加速音频合成过程,并可能提高最终合成音频的质量。
改造非自回归(NAR)模型为流式输出架构:为了实现更低延迟和更高效的音频生成,我们打算对现有的 NAR 模型进行调整,使其支持流式输出模式。这样,模型能够一边生成音频数据一边实时输出,极大地提升了用户体验,特别是在需要即时响应的应用场景中。
研究更多非 Transformer 网络架构:虽然 Transformer 架构在许多方面表现优异,但我们认为探索其他类型的神经网络结构同样重要。这包括但不限于卷积神经网络(CNN)、循环神经网络(RNN)及其变体等。我们的目标是发现那些在特定任务上具有优势且能提供更高效率或更好性能的新架构。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |