热搜: 活动交友 discuz

扫码关注官方微信

扫码下载APP

返回顶部

链载Ai › 核心板块 › 前沿技术 › 开源的语音识别模型总结

链载Ai 关注Ta

发帖数39924
粉丝0

此人很懒，什么也没有留下

阅读作者更多精彩帖子

热门问答更多热门问答

技术文章更多技术文章

开源的语音识别模型总结

[复制链接]

链载Ai 显示全部楼层 发表于 12 小时前 |阅读模式

上一主题

下一主题

开源的语音识别模型总结：

Whisper：

特点：Whisper 是由 OpenAI 开发的通用语音识别模型（ASR），具有高达 95% 的准确率，能够执行多语言语音识别、语音翻译和语言识别。它在大量多样化的音频数据集上进行训练，具有惊人的准确性。
使用：Whisper 已经被 OpenAI 开源，可以在 Google Colab 中运行，也可以在本地使用 x86 架构的计算机运行。对于 Windows 用户，可以下载编译好的 WhisperDesktop.zip 图形界面版使用。
开源链接：https://github.com/openai/whisper.git

SenseVoice：

特点：SenseVoice 是阿里云通义千问开源的语音基座模型，专注于高精度多语言语音识别、情感辨识和音频事件检测。它支持超过 50 种语言，识别效果优于 Whisper 模型，推理延迟极低。
使用：SenseVoice 提供了便捷的微调脚本与策略，方便用户根据业务场景修复长尾样本问题。支持多并发请求，支持的客户端语言有 Python、C++、HTML、Java 与 C# 等。
阿里巴巴通义实验室开源FunAudioLLM，革新人机语音交互
开源链接：https://github.com/FunAudioLLM/SenseVoice

Vosk：

特点：Vosk 是最紧凑、最轻量级的语音转文本引擎之一，可以在多种设备上离线运行，包括 Android、iOS 和 Raspberry Pi。它支持 20 多种语言或方言，包括英语、中文、葡萄牙语、波兰语、德语等。
使用：Vosk 提供了小型语言模型，不占用太多空间，响应速度快，可以连续将语音转换为文本。
开源链接：https://alphacephei.com/vosk/index.zh

Athena：

特点：Athena 是一个基于序列到序列的语音转文本开源引擎，适合研究人员和开发人员的端到端语音处理需求。模型可以处理自动语音识别（ASR）、语音合成、语音检测和关键字定位等任务。
使用：Athena 所有语言模型都基于 TensorFlow 实现，不依赖于 Kaldi，有自己的 Python 特征提取器。
开源链接：https://github.com/athena-team/athena

ESPnet：

特点：ESPnet 是一个基于 Apache 2.0 许可证发布的开源语音转文本软件，提供端到端语音处理功能，涵盖 ASR、翻译、语音合成、增强和日志化等任务。它采用 Pytorch 作为其深度学习框架，并遵循 Kaldi 数据处理风格。
使用：ESPnet 支持多语言，可以将其与现成的预训练模型一起使用，或根据需求创建自己的模型。
开源链接：https://gitee.com/nanbowang/masr

Tensorflow ASR：

特点：Tensorflow ASR 是一个使用 TensorFlow 2.0 作为深度学习框架来实现各种语音处理的语音转文本开源引擎。它支持使用特定的模型，如 Conformer、ContextNet、DeepSpeech2 和 Jasper 。
使用：Tensorflow ASR 在处理语音转文本时，语言模型具备较高准确性和效率。可以将模型转换为 TFlite 格式，使其轻量且易于部署。
开源链接：https://github.com/TensorSpeech/TensorFlowASR

MASR：

特点：MASR 是一个中文语音识别项目，使用门控卷积神经网络（Gated Convolutional Network），网络结构类似于 Facebook 在 2016 年提出的 Wav2letter。MASR 提供的预训练模型的识别效果是个人开源项目中最好的。
使用：MASR 使用起来相对容易，适合个人项目和研究使用。
开源链接：https://github.com/espnet/espnet

除此之外，例如paddlepaddle,paraformer以及modelscope平台上的一些直接可用的语音识别模型都可以使用。

综合使用体验来看，各有优缺点，具体要根据每个人的需求来判断，我自己最常使用的是senseVoice 和Whisper的结合。SenseVoce有时无法识别，就利用Whisper 做修正。

回复

使用道具举报

发布主题

返回列表

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程，Suno AI音乐生成指南，以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整，手把手助您从入门到精通。

官方手机版
微信公众号
商务合作

Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司||