阿里 Qwen3-TTS 全新上线！支持9种方言 49种音色，连天津味儿都拿捏了！

显示全部楼层

最近 TTS 领域是真的越来越卷了，国内外各个互联网大厂轮番上阵。

阿里通义（Qwen）团队最近在开源界简直是“劳模”级别的存在，这边又悄悄上新了全新的Qwen3-TTS。

而且一出手就明显是冲着「自然度 + 多音色 + 多语言」这一代标准去的。

Qwen3-TTS 是阿里 Qwen 系列最新一代文本转语音模型，主打三件事：

• 更拟人的语音表达
• 更丰富、可用的音色体系
• 更强的多语言 + 多方言能力

这是一个更会说话、更像真人、也更适合内容创作与虚拟角色的 TTS 模型。

主要特色

1、49 种高保真音色

这次 Qwen3-TTS 的音色体系明显是认真重新打磨过的。

不只是「男声/女声/老年/童声」这种基础划分，而是已经具备角色化倾向。

比如下面这些非常有画面感的音色👇

• 「茉兔」：活泼、略带撒娇感，很适合短视频或虚拟主播
• 「十三」：傲娇、女汉子气质，情绪张力很强
• 「墨讲师」：稳重严肃，典型课程 / 知识型人设
• 「沧明子」：低沉、睿智，适合历史、人文、长内容
• 「萌小姬」：偏萝莉向，二次元或轻娱乐场景友好

这些音色已经不是“调调音高”，而是明显带说话习惯与表达风格。

这 49 个音色几乎就是现成的素材库。

2、10 种语言 + 9 种方言

✅ 10 种语言支持

包括：

• 中文 🇨🇳
• 英文 🇺🇸
• 德语 🇩🇪
• 法语 🇫🇷
• 西班牙语 🇪🇸
• 意大利语 🇮🇹
• 葡萄牙语 🇵🇹
• 日语 🇯🇵
• 韩语 🇰🇷
• 俄语 🇷🇺

在 MiniMax TTS multilingual test set 上：

Qwen3-TTS 的平均 WER 表现，优于 MiniMax/ElevenLabs/GPT-4o Audio Preview，对一个国产 TTS 来说，这个成绩非常能打。

✅ 9 种中文方言

• 普通话
• 粤语
• 闽南语
• 吴语
• 四川话
• 北京话
• 南京话
• 天津话
• 陕西话

并且不是机器味很重那种读方言词典，而是能保留真实语调与地域口音。

3、语速 & 韵律智能调节

相比上一代，Qwen3-TTS 最大的模型层面改进，其实在韵律控制。

可根据文本内容自动调整语速；情绪变化时韵律跟着变；还有陈述/转折/感叹，听得出来区别。

拟人化程度相比上一代有明显感知级提升。

快速入手

Qwen3-TTS 的使用需通过 API 方式进行，而官方也给了抱抱脸和魔搭社区的Demo可体验不同的语言和音色。

大家可选择一个可访问的进行使用体验其效果。

如果需要 API 接入到自己的项目或应用中，可在阿里云百炼开通 API 进行使用。

示例代码：

# 请安装 DashScope SDK 的最新版本
import os
import requests
import dashscope
text ="那我来给大家推荐一款T恤，这款呢真的是超级好看，这个颜色呢很显气质，而且呢也是搭配的绝佳单品，大家可以闭眼入，真的是非常好看，对身材的包容性也很好，不管啥身材的宝宝呢，穿上去都是很好看的。推荐宝宝们下单哦。"
# SpeechSynthesizer接口使用方法：dashscope.audio.qwen_tts.SpeechSynthesizer.call(...)
response = dashscope.MultiModalConversation.call(
  model="qwen3-tts-flash-2025-11-27",
  api_key=os.getenv("DASHSCOPE_API_KEY"),
  text=text,
  voice="Cherry",
  language_type="Chinese",# 建议与文本语种一致，以获得正确的发音和自然的语调。
  stream=False
)
audio_url = response.output.audio.url
save_path ="downloaded_audio.wav" # 自定义保存路径
try:
  response = requests.get(audio_url)
  response.raise_for_status() # 检查请求是否成功
  with open(save_path,'wb') as f:
    f.write(response.content)
  print(f"音频文件已保存至：{save_path}")
except Exception as e:
  print(f"下载失败：{str(e)}")

写在最后

Qwen3-TTS 并不是想做最多功能的 TTS，而是选择把「像不像真人」这件事，往前推了一大步。

多音色、多语言、多方言只是表象，真正重要的是 — 语速、韵律、情绪，开始有「人味」了。

如果你正在做内容创作、虚拟角色、AI 助手、播客或本地化语音应用，这一代 Qwen3-TTS，非常值得认真试一下。