①导入库文件
一切开始前先导入我们需要使用的pip库。
importtime#导入时间模块,用于控制延时importvosk#导入Vosk语音识别库importjson#导入JSON解析库importsubprocess#用于调用外部进程(如语音合成)importollama#导入Ollama,用于聊天AI处理importasyncio#导入asyncio以支持异步操作importpyaudio#导入PyAudio处理音频输入importthreading#导入多线程模块importre#导入正则表达式模块,用于文本处理fromconcurrent.futuresimportThreadPoolExecutor#用于异步任务的线程池fromboardimport*#导入board库,用于I2C设备的引脚定义importbusio#用于I2C通信fromPILimportImage,ImageDraw,ImageFont#用于处理OLED显示图像importadafruit_ssd1306#用于控制SSD1306OLED屏幕
②定义变量
定义一些模型路径,字符路径等变量。
这里为了避免内存超出,MAX_HISTORY_LENGTH限制会话最多保存1条,如果你设备内存或虚拟内存足够,可以增加。
# 选择合适的字体font_path = "/usr/share/fonts/truetype/noto/NotoSansCJK-Regular.ttc"# OLED 屏幕显示的字体路径font = ImageFont.truetype(font_path, 16)# 设置字体大小适应屏幕
# 初始化 I2C 设备i2c = busio.I2C(I2C2_SCL, I2C2_SDA)# 通过 I2C2_SCL 和 I2C2_SDA 初始化 I2C 通信disp = adafruit_ssd1306.SSD1306_I2C(128, 64, i2c)# 通过 I2C 初始化 128x64 分辨率的 OLED 屏幕
# 清空屏幕disp.fill(0)disp.show()
# 获取屏幕宽高width = disp.widthheight = disp.height
# 创建一个空白图像用于绘制image = Image.new("1", (width, height))draw = ImageDraw.Draw(image)
# 设置 Vosk 语音识别模型路径,根据自己的路径设置model_path = "/home/linaro/vosk-model-small-cn-0.22"model = vosk.Model(model_path)# 加载 Vosk 语音识别模型recognizer = vosk.KaldiRecognizer(model, 16000)# 以 16kHz 采样率初始化语音识别器
# 记录会话历史conversation_history = [{"role": "system", "content": "你是嘉立创EDA-小嘉,是一个运行在泰山派上的离线本地大模型语音助手。"},]MAX_HISTORY_LENGTH = 1# 限制会话历史的最大条数asr_running = False# 语音识别时的动画状态控制变量
③OLED文本显示函数
屏幕显示这里进行了封装,确保每次显示前能自动清屏,同样的限制只能显示8个字符,避免超出显示长度。
defshow_on_oled(text):draw.rectangle((0,0,width,height),outline=0,fill=0)#清除屏幕draw.text((0,0),text[:8],font=font,fill=255)#仅显示前8个字符disp.image(image)#更新屏幕内容disp.show()
④动画表情绘制函数
动画表情直接利用库函数绘制圆和弧线实现。
def draw_face(mouth_state=0): """显示不同表情的脸部动画"""draw.rectangle((0, 0, width, height), outline=0, fill=0)# 清空屏幕
# 绘制眼睛draw.ellipse((32, 15, 40, 25), outline=255, fill=255)# 左眼draw.ellipse((88, 15, 96, 25), outline=255, fill=255)# 右眼
# 嘴巴动画if mouth_state == 0:draw.line((50,50, 78, 50), fill=255, width=2)# 直线嘴巴elif mouth_state == 1:draw.arc((50, 40, 78, 60), start=0, end=180, fill=255)# 微笑嘴巴elif mouth_state == 2:draw.ellipse((58, 50, 70, 60), outline=255, fill=255)# 张嘴嘴巴
disp.image(image)# 更新屏幕内容disp.show()
⑤嘴巴动画
嘴巴动画通过该函数来控制变换,因为采用了多线程,可以避免动画影响Vosk识别语音。defasr_animation():globalasr_runningframe=0whileasr_running:draw_face(frame%3)#按0、1、2的顺序切换嘴巴形态frame+=1time.sleep(0.2)#控制动画速度
⑥Vosk 语音识别
怎么实现边录边传?
先配置音频采样率16kHz,然后设置一个20480帧的缓冲区大小(约1.28s),16位PCM格式。
然后配置asr_running 全局标志用于控制动画线程运行,独立线程运行asr_animation实现非阻塞式用户体验。
这里循环中启用流式传输,每次读取 2048 字节(约 128ms )实现非阻塞读取:exception_on_overflow=False 允许忽略缓冲区溢出错误,这样无需等待完整录音文件,实现边录边传。
def recognize_speech(p):global asr_runningstream = p.open(format=pyaudio.paInt16,channels=1,rate=16000,input=True,frames_per_buffer=20480)stream.start_stream()print("正在识别语音...")asr_running = True# 启动动画animation_thread = threading.Thread(target=asr_animation)# 创建动画线程animation_thread.start()try:while True:data = stream.read(2048, exception_on_overflow=False)# 读取音频数据if recognizer.AcceptWaveform(data):# 处理音频流result = recognizer.Result()# 获取识别结果result_json = json.loads(result)# 解析 JSON 数据if "text" in result_json:text = result_json['text']# 提取识别文本print(f"识别到的文字: {text}")asr_running = False# 停止动画animation_thread.join()# 等待动画线程结束draw_face(1)# 识别完成后显示微笑表情time.sleep(1)
# 释放音频资源stream.stop_stream()stream.close()return textexcept IOError:pass
# 释放资源asr_running = Falseanimation_thread.join()stream.stop_stream()stream.close()
⑦保留中文字符
说出来的话,要转换成文字呀!如何只保留中文字符,避免识别出乱码呢?
由于我们使用的espeak-ng是轻量化的,只能支持一种语言,所以这里我们要过滤掉除中文外的文字和特殊符号。
这里使用正则表达式"[^\u4e00-\u9fa5,。!?]"。
正则表达式中的方括号表示字符集,^符号在开头表示取反,也就是匹配不在这个字符集里的任何字符。所以这个正则表达式的作用是匹配所有不属于指定Unicode范围的字符,以及标点符号,。!?。
defclean_text(text):returnre.sub(r"[^\u4e00-\u9fa5,。!?]","",text)
⑧模型处理
已经搞定了语音识别转文字了,那怎么让模型“理解”它的含义呢?
——将语音识别的文字传给Ollama然后交给模型处理,使用stream=True实现流式逐块生成,然后通过for chunk in response: if 'message' in chunk and 'content' in chunk['message']:典型的流式响应处理模式,主要用于处理流式返回的数据结构。
async def generate_and_play_text(input_text):draw_face(1)# 显示微笑表情time.sleep(1)conversation_history.append({"role": "user", "content": input_text})# 记录用户输入response = ollama.chat(model="qwen2:0.5b", messages=conversation_history, stream=True)# AI 生成回答generated_text = ""for chunk in response:if 'message' in chunk and 'content' in chunk['message']:raw_text = chunk['message']['content']clean_tts_text = clean_text(raw_text)# 清理文本generated_text += raw_textshow_on_oled(raw_text)print(f"当前生成: {generated_text}")if clean_tts_text:# 确保有中文内容才播放
# 显示在 OLED 上subprocess.run(['espeak-ng', '-v', 'zh', clean_tts_text])# 语音朗读
conversation_history.append({"role": "assistant", "content": generated_text})# 记录 AI 回应draw_face(1)# 结束后显示微笑time.sleep(1)
⑨主函数
如何让动画和语音识别,能共同运行,且互不干涉呢?
这里max_workers=2 采用双线程实现互不干涉。然后通过pyaudio库用于输入音频数据,代入我们前面创建的函数中。
asyncdefmain():loop=asyncio.get_event_loop()#获取事件循环executor=ThreadPoolExecutor(max_workers=2)#线程池用于并发任务p=pyaudio.PyAudio()#创建pyaudio实例whileTrue:recognized_text=awaitloop.run_in_executor(executor,recognize_speech,p)#识别语音awaitgenerate_and_play_text(recognized_text)#生成回答并朗读p.terminate()#释放音频资源if__name__=="__main__":asyncio.run(main())#运行主程序
如果你没有泰山派
本项目的DIY成本为193.5元153.5元
如果你已经有了泰山派
那么本项目的DIY成本仅需25.5元
*立创·泰山派是一款开源的卡片电脑,提供全面开放的软硬件资料,参数资源如下:

如果你想尝试复刻AI-BOX
想采购泰山派
那您真来巧啦!
泰山派正进行限时特价!
直降40元!
1G+0G版本的泰山派
不要168!
仅需128!
2G+16G版本的泰山派
不要228!
仅需188元!
扫码即可抢购

电脑端打开:https://lckfb.com/project/detail/lctspi-2g-16g
扫码后,4步领取优惠
