|
FireRedASR 是小红书开源的一个高度精确的中文语音转文字项目,在多个对比维度上都优于 whisper/funasr等。 为此创建了一个带有 webui界面,并兼容 OpenAI SDK格式的封装,同时提供了一个win下的整合包,以方便使用。 开源地址:https://github.com/jianchang512/fireredasr-ui WebUI 界面启动后默认地址:http://127.0.0.1:5078
Windows预打包版win10/11 提供了预打包版。
123网盘下载地址:https://www.123684.com/s/03Sxjv-xzTJ3 解压后双击启动.bat即可 源码安装 Linux/MacOS确保已安装 python3.10 、ffmpeg
进入某个目录下,打开终端 - 拉取源码,执行命令
git clone https://github.com/jianchang512/fireredasr-ui.git - 创建虚拟环境:
python3 -m venv venv - 激活该环境:
. venv/bin/activate - 安装依赖:
pip3 install -r requirements.txt - 点击从huggingface下载模型,将页面中的几个文件下载后放入
/pretrained_models/FireRedASR-AED-L文件夹内
API 调用默认地址:http://127.0.0.1:5078/v1 OpenAI SDK中使用 from openai import OpenAI client = OpenAI(api_key='123456', base_url='http://127.0.0.1:5078/v1')
audio_file = open("5.wav", "rb") transcript = client.audio.transcriptions.create( model="whisper-1", file=audio_file, response_format="json", timeout=86400 )
print(transcript.text)
在 pyVideoTrans 中使用如下图在OpenAI语音识别及兼容API中填写,然后在语音识别渠道中选择OpenAI语音识别 
|