听得清，识得准，语音识别模型Qwen3-ASR-Flash来了！

显示全部楼层

今天，我们正式推出通义千问系列最新的语音识别模型 Qwen3-ASR-Flash，它基于Qwen3基座模型，经海量多模态数据以及千万⼩时规模的ASR（自动语音识别）数据训练构建而成。

Qwen3-ASR-Flash实现了⾼精度⾼鲁棒性的语⾳识别性能，⽀持11种语⾔和多种⼝⾳。与众不同的是，Qwen3-ASR-Flash⽀持⽤户以任意格式提供⽂本上下⽂，从⽽获得定制化的 ASR 结果，同时还⽀持歌声识别。

Qwen3-ASR-Flash的核心特性：

体验方式：

ModelScope：

https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo

HuggingFace:

https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

阿里云百炼API：

https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

语种支持

Qwen3-ASR-Flash 单模型支持多种语言、方言和口音的精准转录：

背景提示

为获得定制化的ASR结果，用户可提供任意格式的背景文本来获得倾向性ASR结果，Qwen3-ASR-Flash无需对上下文信息进行格式预处理。

支持的格式包括但不限于：

演示示例

Qwen3-ASR-Flash单模型单次推理，除示例2之外未配置背景信息。

连续多种类型噪声

电竞比赛解说

英文说唱

车载噪声环境方言

多种语句间切换

化学课程

未来展望

Qwen3-ASR-Flash 将持续迭代升级，不断精进通用识别准确率，我们也会开发更多功能，为大家提供更智能、更好用的语音转文字服务。

关注我，掌握千问大模型最新动态