返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

聊聊个人声音定制的开源模型试用

[复制链接]
链载Ai 显示全部楼层 发表于 10 小时前 |阅读模式 打印 上一主题 下一主题

概述

语音合成(Text-to-Speech, TTS) 是指将输入文字合成为对应语音信号的功能,输出音频文件,最终由相关设备朗读出来。

SamBERT是达摩院语音实验室设计的一种基于Parallel结构的改良版TTS模型,它具有以下优点:

  1. Backbone采用Self-Attention-Mechanism(SAM),提升模型建模能力。
  2. Encoder部分采用BERT进行初始化,引入更多文本信息,提升合成韵律。
  3. Variance Adaptor对音素级别的韵律(基频、能量、时长)轮廓进行粗粒度的预测,再通过decoder进行帧级别细粒度的建模;并在时长预测时考虑到其与基频、能量的关联信息,结合自回归结构,进一步提升韵律自然度.
  4. Decoder部分采用PNCA AR-Decoder,自然支持流式合成。

其架构图如下:对于SamBERT更详细的技术介绍,可参考:文档[1]。本篇主要讲解模型实际的试用,对于技术原理给出的魔塔文档链接已经比较详细的介绍了。

ModelScope试用

在魔塔社区[2]上,提供了SamBERT的创空间和模型库:这些创空间与模型库的文档非常详细,按照文档直接试用即可,每个魔塔新用户都有免费GPU服务器试用名额,可以玩转一下这些模型。

我选择的场景是个人声音定制,选择创空间,然后录制声音,开始训练:开始体验:合成后,播放录音,效果不错,还是可以的。当然对于长上下文、方言等场景支持有一定的限制。

私有化搭建

模型库:SambertHifigan个性化语音合成-中文-预训练-24k[3] 支持私有化部署,对于一些简单业务场景或是个人试玩,可以在服务器上搭建。该模型库介绍很详细,直接按流程就可以部署与微调。

写在结尾

对于一些业务场景,如果要求不是很高,不是很复杂;我个人是强烈建议在ModelScope上找找开源模型,然后私有化部署。之前我个人还遇到一些场景也是在ModelScope找模型部署搭建使用。现在机器学习/深度学习/神经网络等人工智能算法应用将会越来越普及,我们也可以考虑将其纳入业务场景应用中,而不是只考虑业务场景的CRUD;闲余时间还可以阅读分析下原理。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ