返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

阿里 Qwen3-TTS 全新上线!支持9种方言 49种音色,连天津味儿都拿捏了!

[复制链接]
链载Ai 显示全部楼层 发表于 前天 14:02 |阅读模式 打印 上一主题 下一主题

最近 TTS 领域是真的越来越卷了,国内外各个互联网大厂轮番上阵。

阿里通义(Qwen)团队最近在开源界简直是“劳模”级别的存在,这边又悄悄上新了全新的Qwen3-TTS

而且一出手就明显是冲着「自然度 + 多音色 + 多语言」这一代标准去的。

Qwen3-TTS 是阿里 Qwen 系列最新一代文本转语音模型,主打三件事:

  • • 更拟人的语音表达
  • • 更丰富、可用的音色体系
  • • 更强的多语言 + 多方言能力

这是一个更会说话、更像真人、也更适合内容创作与虚拟角色的 TTS 模型。

主要特色

1、49 种高保真音色

这次 Qwen3-TTS 的音色体系明显是认真重新打磨过的。

不只是「男声/女声/老年/童声」这种基础划分,而是已经具备角色化倾向。

比如下面这些非常有画面感的音色👇

  • • 「茉兔」:活泼、略带撒娇感,很适合短视频或虚拟主播
  • • 「十三」:傲娇、女汉子气质,情绪张力很强
  • • 「墨讲师」:稳重严肃,典型课程 / 知识型人设
  • • 「沧明子」:低沉、睿智,适合历史、人文、长内容
  • • 「萌小姬」:偏萝莉向,二次元或轻娱乐场景友好

这些音色已经不是“调调音高”,而是明显带说话习惯与表达风格。

这 49 个音色几乎就是现成的素材库。

2、10 种语言 + 9 种方言

✅ 10 种语言支持

包括:

  • • 中文 🇨🇳
  • • 英文 🇺🇸
  • • 德语 🇩🇪
  • • 法语 🇫🇷
  • • 西班牙语 🇪🇸
  • • 意大利语 🇮🇹
  • • 葡萄牙语 🇵🇹
  • • 日语 🇯🇵
  • • 韩语 🇰🇷
  • • 俄语 🇷🇺

在 MiniMax TTS multilingual test set 上:

Qwen3-TTS 的平均 WER 表现,优于 MiniMax/ElevenLabs/GPT-4o Audio Preview,对一个国产 TTS 来说,这个成绩非常能打。

✅ 9 种中文方言

  • • 普通话
  • • 粤语
  • • 闽南语
  • • 吴语
  • • 四川话
  • • 北京话
  • • 南京话
  • • 天津话
  • • 陕西话

并且不是机器味很重那种读方言词典,而是能保留真实语调与地域口音。

3、语速 & 韵律智能调节

相比上一代,Qwen3-TTS 最大的模型层面改进,其实在韵律控制。

可根据文本内容自动调整语速;情绪变化时韵律跟着变;还有陈述/转折/感叹,听得出来区别。

拟人化程度相比上一代 有明显感知级提升。

快速入手

Qwen3-TTS 的使用需通过 API 方式进行,而官方也给了抱抱脸和魔搭社区的Demo可体验不同的语言和音色。

大家可选择一个可访问的进行使用体验其效果。

如果需要 API 接入到自己的项目或应用中,可在阿里云百炼开通 API 进行使用。

示例代码:

# 请安装 DashScope SDK 的最新版本
import os
import requests
import dashscope
text ="那我来给大家推荐一款T恤,这款呢真的是超级好看,这个颜色呢很显气质,而且呢也是搭配的绝佳单品,大家可以闭眼入,真的是非常好看,对身材的包容性也很好,不管啥身材的宝宝呢,穿上去都是很好看的。推荐宝宝们下单哦。"
# SpeechSynthesizer接口使用方法:dashscope.audio.qwen_tts.SpeechSynthesizer.call(...)
response = dashscope.MultiModalConversation.call(
model="qwen3-tts-flash-2025-11-27",
api_key=os.getenv("DASHSCOPE_API_KEY"),
text=text,
voice="Cherry",
language_type="Chinese",# 建议与文本语种一致,以获得正确的发音和自然的语调。
stream=False
)
audio_url = response.output.audio.url
save_path ="downloaded_audio.wav" # 自定义保存路径
try:
response = requests.get(audio_url)
response.raise_for_status() # 检查请求是否成功
with open(save_path,'wb') as f:
f.write(response.content)
print(f"音频文件已保存至:{save_path}")
except Exception as e:
print(f"下载失败:{str(e)}")

写在最后

Qwen3-TTS 并不是想做最多功能的 TTS,而是选择把「像不像真人」这件事,往前推了一大步。

多音色、多语言、多方言只是表象,真正重要的是 — 语速、韵律、情绪,开始有「人味」了。

如果你正在做内容创作、虚拟角色、AI 助手、播客或本地化语音应用,这一代 Qwen3-TTS,非常值得认真试一下。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ