返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

开源的语音识别模型总结

[复制链接]
链载Ai 显示全部楼层 发表于 12 小时前 |阅读模式 打印 上一主题 下一主题

开源的语音识别模型总结:

  1. Whisper:

  • 特点:Whisper 是由 OpenAI 开发的通用语音识别模型(ASR),具有高达 95% 的准确率,能够执行多语言语音识别、语音翻译和语言识别。它在大量多样化的音频数据集上进行训练,具有惊人的准确性 。

  • 使用:Whisper 已经被 OpenAI 开源,可以在 Google Colab 中运行,也可以在本地使用 x86 架构的计算机运行。对于 Windows 用户,可以下载编译好的 WhisperDesktop.zip 图形界面版使用 。

  • 开源链接:https://github.com/openai/whisper.git

  • SenseVoice:

    • 特点:SenseVoice 是阿里云通义千问开源的语音基座模型,专注于高精度多语言语音识别、情感辨识和音频事件检测。它支持超过 50 种语言,识别效果优于 Whisper 模型,推理延迟极低 。

    • 使用:SenseVoice 提供了便捷的微调脚本与策略,方便用户根据业务场景修复长尾样本问题。支持多并发请求,支持的客户端语言有 Python、C++、HTML、Java 与 C# 等 。

    • 阿里巴巴通义实验室开源FunAudioLLM,革新人机语音交互


    • 开源链接:https://github.com/FunAudioLLM/SenseVoice

  • Vosk:

    • 特点:Vosk 是最紧凑、最轻量级的语音转文本引擎之一,可以在多种设备上离线运行,包括 Android、iOS 和 Raspberry Pi。它支持 20 多种语言或方言,包括英语、中文、葡萄牙语、波兰语、德语等 。

    • 使用:Vosk 提供了小型语言模型,不占用太多空间,响应速度快,可以连续将语音转换为文本 。

    • 开源链接:https://alphacephei.com/vosk/index.zh

  • Athena:

    • 特点:Athena 是一个基于序列到序列的语音转文本开源引擎,适合研究人员和开发人员的端到端语音处理需求。模型可以处理自动语音识别(ASR)、语音合成、语音检测和关键字定位等任务 。

    • 使用:Athena 所有语言模型都基于 TensorFlow 实现,不依赖于 Kaldi,有自己的 Python 特征提取器 。

    • 开源链接:https://github.com/athena-team/athena

  • ESPnet:

    • 特点:ESPnet 是一个基于 Apache 2.0 许可证发布的开源语音转文本软件,提供端到端语音处理功能,涵盖 ASR、翻译、语音合成、增强和日志化等任务。它采用 Pytorch 作为其深度学习框架,并遵循 Kaldi 数据处理风格 。

    • 使用:ESPnet 支持多语言,可以将其与现成的预训练模型一起使用,或根据需求创建自己的模型 。

    • 开源链接:https://gitee.com/nanbowang/masr

  • Tensorflow ASR:

    • 特点:Tensorflow ASR 是一个使用 TensorFlow 2.0 作为深度学习框架来实现各种语音处理的语音转文本开源引擎。它支持使用特定的模型,如 Conformer、ContextNet、DeepSpeech2 和 Jasper 。

    • 使用:Tensorflow ASR 在处理语音转文本时,语言模型具备较高准确性和效率。可以将模型转换为 TFlite 格式,使其轻量且易于部署 。

    • 开源链接:https://github.com/TensorSpeech/TensorFlowASR

  • MASR:

    • 特点:MASR 是一个中文语音识别项目,使用门控卷积神经网络(Gated Convolutional Network),网络结构类似于 Facebook 在 2016 年提出的 Wav2letter。MASR 提供的预训练模型的识别效果是个人开源项目中最好的 。

    • 使用:MASR 使用起来相对容易,适合个人项目和研究使用 。

    • 开源链接:https://github.com/espnet/espnet

  • 除此之外,例如paddlepaddle,paraformer以及modelscope平台上的一些直接可用的语音识别模型都可以使用。

  • 综合使用体验来看,各有优缺点,具体要根据每个人的需求来判断,我自己最常使用的是senseVoice 和Whisper的结合。SenseVoce有时无法识别,就利用Whisper 做修正。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ