返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

听得清,识得准,语音识别模型Qwen3-ASR-Flash来了!

[复制链接]
链载Ai 显示全部楼层 发表于 前天 22:17 |阅读模式 打印 上一主题 下一主题


今天,我们正式推出通义千问系列最新的语音识别模型 Qwen3-ASR-Flash,它基于Qwen3基座模型,经海量多模态数据以及千万⼩时规模的ASR(自动语音识别)数据训练构建而成。


Qwen3-ASR-Flash实现了⾼精度⾼鲁棒性的语⾳识别性能,⽀持11种语⾔和多种⼝⾳。与众不同的是,Qwen3-ASR-Flash⽀持⽤户以任意格式提供⽂本上下⽂,从⽽获得定制化的 ASR 结果,同时还⽀持歌声识别。



Qwen3-ASR-Flash的核心特性:

  • 领先的识别准确率:Qwen3-ASR-Flash在多个中英文,多语种benchmark测试中表现最优。

  • 惊艳的歌声识别能力:支持歌唱识别,包括清唱与带bgm的整歌识别,实测错误率低于8%。

  • 定制化识别:用户可以以任意格式(如词汇表、段落或完整文档)提供背景文本,模型能智能利用该上下文识别并匹配命名实体和其他关键术语,输出定制化的识别结果。

  • 语种识别与非人声拒识:模型能精确分辨语音的语种,自动过滤非语音片段,包括静音和背景噪声。

  • 鲁棒性:面对长难句、句中语言切换和重复词语等困难文本模式,以及在复杂的声学环境中,模型仍能保持高准确率。


体验方式:

ModelScope:

https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo

HuggingFace: 

https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

阿里云百炼API:

https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031



语种支持


Qwen3-ASR-Flash 单模型支持多种语言、方言和口音的精准转录:

  • 中文:包括普通话以及四川话、闽南语、吴语、粤语等主要方言。

  • 英语:支持英式、美式及多种其他地区口音。

  • 其他支持语言:法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。



背景提示


为获得定制化的ASR结果,用户可提供任意格式的背景文本来获得倾向性ASR结果,Qwen3-ASR-Flash无需对上下文信息进行格式预处理。

支持的格式包括但不限于:

  • 简单的关键词或热词列表。

  • 任意长度和来源的完整段落或整篇文档。

  • 以任意格式混合的关键词列表与全文段落。

  • 无关甚至无意义的文本(模型对无关上下文的负面影响具有高度鲁棒性)。



演示示例


Qwen3-ASR-Flash单模型单次推理,除示例2之外未配置背景信息。


连续多种类型噪声




电竞比赛解说




英文说唱




车载噪声环境方言




多种语句间切换




化学课程





未来展望


Qwen3-ASR-Flash 将持续迭代升级,不断精进通用识别准确率,我们也会开发更多功能,为大家提供更智能、更好用的语音转文字服务。



关注我,掌握千问大模型最新动态


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ