返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

最新开源tts,支持时时对话,延迟低于25ms,多规则适配多场景

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 12:54 |阅读模式 打印 上一主题 下一主题
前段时间分享了一个sparktts效果很不错,硬件依赖也低,还没看过的可以去看一下一键包:新开源TTS,零样本克隆声音,还能自主创建声音,只需要6G显存,文末一键包,最近又发现一款不错的tts,相比sparktts克隆声音更快,适合有时时对话需求的场景,话不多说,直接上干货,哈哈,项目支持本地和在线测试,文中有链接,可以直接测试。

概述

Orpheus TTS是建立在Llama-3B主链上的开源文本到语音系统。 Orpheus展示了使用LLM进行语音合成的新兴功能。它以其接近人类的自然情感表达、超低延迟的实时输出以及强大的零样本语音克隆能力,还将延迟压缩到令人惊叹的 25-50 毫秒,完美适配实时对话场景。并且提供了从 150M 到 3B 参数的四种型号,满足不同场景的需求。支持零样本语音克隆和灵活的情感控制,可让每个人都能轻松定制专属音色。

能力

  • 类似人类的语音:自然语调,情感和节奏,优于SOTA封闭源模型

  • 零拍的语音克隆:克隆声音而无需以前的微调

  • 引导的情感和语调:带有简单标签的控制语音和情感特征

  • 低延迟:〜200ms的实时应用程序流延迟,可降低至〜100ms,并使用输入流。

流推理示例

克隆这个仓库

gitclonehttps://github.com/canopyai/Orpheus-TTS.git

导航和安装软件包

cdOrpheus-TTS&&pipinstallorpheus-speech#usesvllmunderthehoodforfastinference
pipinstallvllm==0.7.3

VLLM在3月18日推出了一个版本,因此通过恢复到后来 解决了一些错误

pipinstallorpheus-speech

在下面运行以下示例:

fromorpheus_ttsimportOrpheusModelimportwaveimporttime
model = OrpheusModel(model_name ="canopylabs/orpheus-tts-0.1-finetune-prod")prompt ='''Man, the way social media has, um, completely changed how we interact is just wild, right? Like, we're all connected 24/7 but somehow people feel more alone than ever. And don't even get me started on how it's messing with kids' self-esteem and mental health and whatnot.'''
start_time = time.monotonic()syn_tokens = model.generate_speech( prompt=prompt, voice="tara", )
withwave.open("output.wav","wb")aswf: wf.setnchannels(1) wf.setsampwidth(2) wf.setframerate(24000)
total_frames =0 chunk_counter =0 foraudio_chunkinsyn_tokens:# output streaming chunk_counter +=1 frame_count =len(audio_chunk) // (wf.getsampwidth() * wf.getnchannels()) total_frames += frame_count wf.writeframes(audio_chunk) duration = total_frames / wf.getframerate()
end_time = time.monotonic() print(f"It took{end_time - start_time}seconds to generate{duration:.2f}seconds of audio")
测试效果
1、在线Demo:

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">https://huggingface.co/spaces/MohamedRashad/Orpheus-TTS

想构造时时语音助手、有声读物,配音的可以搞起来了,哈哈

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;letter-spacing: 0.578px;background-color: rgb(255, 255, 255);flex-shrink: 0;display: flex;z-index: 5;visibility: visible;">


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ