阿里重磅开源 0.5B TTS 0.8B ASR，支持跨语种音色克隆、说唱识别！

显示全部楼层

2025年眼看就要接近尾声了，AI 圈的风向也正在悄悄发生变化。

大家不再一味追求千亿参数的「巨无霸」模型，而是开始卷端侧模型。

阿里 FunAudioLLM 团队显然深谙此道。这次他们发布的Fun-CosyVoice3 0.5B和Fun-ASR-Nano 0.8B，简直就是为本地党和开发者量身定制的年终大礼。

TTS、ASR 双线程开源，而且它们不是“实验模型”，而是能直接落地用的工程级版本。

先说结论，这两个模型不是各玩各的，而是明显冲着一个目标去的：

在本地，把“听 + 说”这件事真正跑顺。

先说 TTS，这一版 CosyVoice 的关键词只有一个：

“输入即发声”

CosyVoice3 的升级将延迟直接砍半，是真正的“输入即发声”。

具备表现如下：

大白话就是：AI 说话更快、更稳，也更不容易读错。

而且支持双向流式合成：文本一边进，声音一边出，不用等整段文本生成完成。

更狠的是支持跨语种音色复刻。

也就是说：用一段普通话录音，就能生成粤语/日语/英语等语言的同一音色。

如果说 TTS 决定「像不像人」，那 ASR 决定的是：你到底能不能听懂人。

Fun-ASR-Nano是一款基于数千万小时真实语音数据训练的端到端语音识别大模型。它支持低延迟实时转写，并涵盖 31 种语言识别功能。

虽然是 Fun-ASR 的轻量化版本，但这次更新明显不是“阉割版”。

这些升级点，不得不说是非常懂中国真实语音环境的。

把 Fun-ASR-Nano、Fun-CosyVoice3 放在一起，其实能看出阿里的野心：

不是做 Demo，而是做“语音底座”。

你可以很自然地搭出：本地语音助手、隐私优先的会议系统、实时翻译 + 语音播报、多语言语音 Agent ...

而且全部可私有化部署。

把拟人化语音交互的门槛降到了地板上。无论你是想给自己做一个语音工具，还是想为公司产品增加语音能力，这套开源方案都是目前性价比最高、功能最全的选择之一。

特别是那个零样本跨语种克隆和说唱识别，真的建议大家部署下来玩一玩，绝对会让你惊掉下巴。