阿里巴巴发布全新开源语音交互大模型：Fun-Audio-Chat

显示全部楼层

今天看到阿里把 Fun-Audio-Chat 开源的时候，我脑子里第一个画面是——以后跟电脑说话，真的就像跟一个人唠嗑了。

不是那种「请说出您要办理的业务，一般请按 1」的机器人，是那种会听你语气、听你叹气、还能听出你是不是快崩溃了的那种。

我先粗暴翻译一下这个模型干嘛的哈：

官方宣传还挺猛：在一堆音频 benchmark 里领先，效果跟 GPT-Audio、Gemini 2.5 Pro 差不多，重点是——开源，还 Apache 2.0，那就是：能商用、能私有化部署、爱怎么折腾怎么折腾。

我脑子里立刻开始乱飞各种场景：

以后打客服电话，接你的那个声音也许就是 Fun-Audio-Chat：

你想想，现在很多语音机器人，最大问题不是听不懂话，是听不懂「情绪」。Fun-Audio-Chat 这种专门做「同理心 +任务执行」的，大概率会先把这一块给吃了。

电话客服、外呼中心，真的会被这一波洗一遍。

以前家里的智能音箱，基本就是个高级遥控器：

「打开客厅灯」「为您打开客厅灯」

就这。

以后可能是这样：

你下班回家声音超级疲惫：「我累死了……」它先不急着问你要干嘛，而是自动把灯、空调、窗帘、舒缓音乐一条龙安排好，再说一句：「今天也辛苦了，要不要我帮你定个外卖？」

这就不是“语音交互”了，这是有一点点「情绪在场」的陪伴。

而且 Fun-Audio-Chat 这种是「语音生成语音」，不需要先转成文字再算一大圈，延迟低很多，唠嗑感就会真实很多。

开源意味着什么？

Fun-Audio-Chat 这次是 8B 量级、端到端语音大模型、Apache 2.0 开源，官方还把训练技巧、推理代码一并放了出来。

粗暴理解：

这和那种「我们给你一个 API，你爱用不用」不太一样，是真·给你发动机，顺带教你怎么装车。反正现在的感觉就是：

之前我们说「未来电脑会听你说话」，那是功能上的；这次 Fun-Audio-Chat 这种东西出来，感觉更像是——未来电脑会「听懂你说话时的情绪」。

那接下来，问题就来了：

你更期待这样的 AI 早点普及，还是有点害怕它「太会来事儿」？

阿里巴巴发布全新开源语音交互大模型 ：Fun-Audio-Chat