|
最近 TTS 领域是真的越来越卷了,国内外各个互联网大厂轮番上阵。 阿里通义(Qwen)团队最近在开源界简直是“劳模”级别的存在,这边又悄悄上新了全新的Qwen3-TTS。 而且一出手就明显是冲着「自然度 + 多音色 + 多语言」这一代标准去的。 Qwen3-TTS 是阿里 Qwen 系列最新一代文本转语音模型,主打三件事: 这是一个更会说话、更像真人、也更适合内容创作与虚拟角色的 TTS 模型。 主要特色1、49 种高保真音色 这次 Qwen3-TTS 的音色体系明显是认真重新打磨过的。 不只是「男声/女声/老年/童声」这种基础划分,而是已经具备角色化倾向。 比如下面这些非常有画面感的音色👇 - • 「茉兔」:活泼、略带撒娇感,很适合短视频或虚拟主播
- • 「墨讲师」:稳重严肃,典型课程 / 知识型人设
- • 「沧明子」:低沉、睿智,适合历史、人文、长内容
这些音色已经不是“调调音高”,而是明显带说话习惯与表达风格。 这 49 个音色几乎就是现成的素材库。 2、10 种语言 + 9 种方言 ✅ 10 种语言支持 包括: 在 MiniMax TTS multilingual test set 上: Qwen3-TTS 的平均 WER 表现,优于 MiniMax/ElevenLabs/GPT-4o Audio Preview,对一个国产 TTS 来说,这个成绩非常能打。 ✅ 9 种中文方言 并且不是机器味很重那种读方言词典,而是能保留真实语调与地域口音。 3、语速 & 韵律智能调节 相比上一代,Qwen3-TTS 最大的模型层面改进,其实在韵律控制。 可根据文本内容自动调整语速;情绪变化时韵律跟着变;还有陈述/转折/感叹,听得出来区别。 拟人化程度相比上一代 有明显感知级提升。 快速入手Qwen3-TTS 的使用需通过 API 方式进行,而官方也给了抱抱脸和魔搭社区的Demo可体验不同的语言和音色。 大家可选择一个可访问的进行使用体验其效果。 如果需要 API 接入到自己的项目或应用中,可在阿里云百炼开通 API 进行使用。 示例代码: # 请安装 DashScope SDK 的最新版本 import os import requests import dashscope text ="那我来给大家推荐一款T恤,这款呢真的是超级好看,这个颜色呢很显气质,而且呢也是搭配的绝佳单品,大家可以闭眼入,真的是非常好看,对身材的包容性也很好,不管啥身材的宝宝呢,穿上去都是很好看的。推荐宝宝们下单哦。" # SpeechSynthesizer接口使用方法:dashscope.audio.qwen_tts.SpeechSynthesizer.call(...) response = dashscope.MultiModalConversation.call( model="qwen3-tts-flash-2025-11-27", api_key=os.getenv("DASHSCOPE_API_KEY"), text=text, voice="Cherry", language_type="Chinese",# 建议与文本语种一致,以获得正确的发音和自然的语调。 stream=False ) audio_url = response.output.audio.url save_path ="downloaded_audio.wav" # 自定义保存路径 try: response = requests.get(audio_url) response.raise_for_status() # 检查请求是否成功 with open(save_path,'wb') as f: f.write(response.content) print(f"音频文件已保存至:{save_path}") except Exception as e: print(f"下载失败:{str(e)}")
写在最后Qwen3-TTS 并不是想做最多功能的 TTS,而是选择把「像不像真人」这件事,往前推了一大步。 多音色、多语言、多方言只是表象,真正重要的是 — 语速、韵律、情绪,开始有「人味」了。 如果你正在做内容创作、虚拟角色、AI 助手、播客或本地化语音应用,这一代 Qwen3-TTS,非常值得认真试一下。 |