返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

6K star!这款TTS效果太炸裂,网上的声音真不能乱信了

[复制链接]
链载Ai 显示全部楼层 发表于 半小时前 |阅读模式 打印 上一主题 下一主题

如果你想做视频,却感觉面对镜头有些紧张,那你的福音真的来了,今年各种TTS工具层出不穷,只需准备好文字,TTS就可以自动转成各种各样的语音了。

今天我们分享一个开源TTS项目,它可以快速克隆声音,效果非常的炸裂,可以满足用户的个性化需求,它就是:Fish Speech



ingFang SC";font-weight: bold;color: rgb(255, 255, 255);line-height: 22px;">Fish Speech是什么



Fish Speech是一款创新的文本转语音(TTS)工具,它提供了极高的自定义性和灵活性,以满足用户的个性化需求。该工具采用了为处理大规模数据而设计的Flash-Attn算法,该算法以其高效性、准确性和稳定性著称,显著提升了TTS技术的性能。

Fish Speech的一个显著特点是其无需繁琐训练的能力,用户只需提供一段参考语音,便可迅速进行语音克隆。此外,该工具对显存的需求极低,仅需4GB,且具有快速的推理速度,极大地优化了用户体验。

项目在发布之后凭借出色的效果和极低上手门槛,热度上升得非常之快。




ingFang SC";font-weight: bold;color: rgb(255, 255, 255);line-height: 22px;letter-spacing: 2px;">在线Demo



另外,Fish audio提供了试用网站,直接打开就可以使用,上面还有很多网友制作上传的克隆声音,而且无需复杂的环境搭建过程。地址如下:

你可以选择已经有的声音来使用,也可以构建自己的声音,我觉得非常的贴心,对于那些动手能力不强的同学,是绝对的福音。比如这一段,可以听听看效果。

你也可以通过构建声音来创建属于自己的声音。




本地安装



资源要求

  • GPU 内存: 4GB (用于推理), 8GB (用于微调)

  • 系统: Linux, Windows

window建议考虑 WSL2 或 docker 来运行代码库。如果是想要不使用Linux环境来安装的话,可以参考文档进行操作,也不是很复杂。

Linux用户安装参考如下:

# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenvconda create -n fish-speech python=3.10conda activate fish-speech
# 安装 pytorchpip3 install torch torchvision torchaudio
# 安装 fish-speechpip3 install -e .
# (Ubuntu / Debian 用户) 安装 soxapt install libsox-dev

完成安装启动后的WEB界面效果如下。




推理方式



总的来说, 推理分为几个部分:

  1. 给定一段 ~10 秒的语音, 将它用 VQGAN 编码.

  2. 将编码后的语义 token 和对应文本输入语言模型作为例子.

  3. 给定一段新文本, 让模型生成对应的语义 token.

  4. 将生成的语义 token 输入 VQGAN 解码, 生成对应的语音.

目前推理提供了3种方式:命令行, http api, 以及 webui

这里介绍下后两种方式,HTTP API和WEB UI的使用方式。

HTTP API:

首先启动API服务

python-mtools.api\\--listen0.0.0.0:8080\\--llama-checkpoint-path"checkpoints/fish-speech-1.2"\\--decoder-checkpoint-path"checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth"\\--decoder-config-namefirefly_gan_vq

随后, 你可以在http://127.0.0.1:8080/中查看并测试 API.

请求示例代码如下:

python-mtools.post_api\\--text"要输入的文本"\\--reference_audio"参考音频路径"\\--reference_text"参考音频的文本内容"\\--streamingTrue

WEB UI 方式

你可以使用以下命令来启动 WebUI:


python -m tools.webui \\--llama-checkpoint-path "checkpoints/fish-speech-1.2" \\--decoder-checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \\--decoder-config-name firefly_gan_vq




功能特点



  1. 高效语音转换:快速将文本转换为自然流畅的语音。

  2. 多语言支持:涵盖中文、英文和日文,跨越语言障碍。

  3. 语音克隆技术:通过深度学习实现个性化语音的克隆。

  4. 低硬件需求:仅需4GB显存,降低使用门槛。

  5. 快速推理:优化推理过程,缩短等待时间,提升效率。

  6. 多样的语音模型:支持多种先进模型,适应不同需求。

  7. 用户友好:简化安装和配置,易于上手。

  8. 微调能力:LORA技术提供细致的模型调整功能。

  9. 性能优化:采用先进技术确保高效稳定的处理能力。





总结



与其他开源TTS模型相比,Fish Speech在稳定性和可用性上都展现出了明显优势。在一些方面Fish Speech的效果比ChatTTS和GPT-SoVITS还要强。目前能看到的一些缺点是Fish Speech虽然最低系统配置要求不高,但是如果想实现高速推理还是比较吃资源的,另外就是对于字符长度的支持比较有限,每次转换都较短。




项目信息



  • 项目名称: Fish Speech

  • GitHub 链接:https://github.com/fishaudio/fish-speech

  • Star 数:6K


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ