链载Ai

标题: 百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms [打印本页]

作者: 链载Ai    时间: 昨天 17:04
标题: 百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms

快速阅读

  1. 技术核心:百聆结合语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术,实现高效语音对话。
  2. 功能亮点:支持语音输入、智能对话生成、语音输出、打断功能、记忆功能、工具调用和任务管理。
  3. 应用场景:适用于智能家居控制、个人助理服务、汽车智能交互、教育辅助工具和办公辅助应用。

正文(附运行示例)

百聆是什么

百聆(Bailing)是一款开源的语音对话助手,基于语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术,能够与用户进行自然的语音对话。百聆的端到端时延低至800ms,无需GPU即可运行,适用于各种边缘设备和低资源环境。

百聆通过模块化设计,支持记忆功能、工具调用和任务管理,提供高质量的语音对话体验。其核心目标是在低资源环境下实现类GPT-4o的对话效果,适用于智能家居、个人助理、车载系统等多种场景。

百聆的主要功能

百聆的技术原理

如何运行百聆

1. 克隆项目仓库

gitclonehttps://github.com/wwbin2017/bailing.git
cdbailing

2. 安装依赖

pip install -r requirements.txt

3. 配置环境变量

4. 启动服务

cdserver
python server.py # 启动后端服务

5. 运行主程序

python main.py

启动后,系统会等待语音输入,通过FunASR将语音转为文本,silero-vad进行语音活动检测,deepseek生成回复,最后通过edge-tts将文本转换为语音输出。

资源






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5