|
你是否还记得那些年为了四六级考试而奋斗的日子? 是否也曾羡慕那些能够说一口流利外语的人? 现在,有了AI翻译技术,我们也能轻松地掌握多国语言,让沟通无国界。 本文介绍借助本地大模型,开发一个跨语言翻译系统,花费大概4小时 功能:保持原有的音色,将你的说话语言翻译成其他语言 目前支持语言: Chinese/English/Japanese/Cantonese/Korean(<|zh|en|jp|yue|ko) 实现方法通过集成SenseVoice、CosyVoice、本地大模型(qwen2:7b),完成语音翻译 首先将输入的语音通过Sensevoice转成文字,输入给大模型,转出目标语言文字,最后通过CosyVoice的多语言复刻模型转成目标语言语音,最后完成语音到语音的翻译 原理如下: 关于FunAudioLLM,请查看文章: AI语音生成天花板,全网最实用,玩转ChatTTS&FunAudioLLM 关于如何下载和使用本地模型,请查看文章:本地知识库+本地大模型,借助RAGFlow搭建医院医疗问诊助手,纯本地,超实用! 关于语音识别SenseVoice SenseVoice-Small模型部署了一个非自回归的端到端架构,从而实现了极低的推理延迟。由于与Whisper-Small模型的参数数量相似,它的推断速度比Whisper-Small快5倍以上,比Whisper-Large快15倍。
 开发前准备 1完成本地大模型的下载和运行(qwen2:7b); 2代码下载; 3完成conda环境的安装部署 开发多语言翻译系统使用方法 1 免费领取文件后,解压 2 下载模型 进入\FunAudioLLM\CosyVoice, 执行download_model_script.py 或者解压公号领取的文件pretrained_models.rar 3 启动项目
进入FunAudioLLM\s2st,启动文件 4 开始使用 使用示例: 上传初始音频: 翻译为英文
翻译为日语 或许你可能需要再进一步,将声音驱动口型,进一步创建自己的翻译数字人 那么你可以尝试查看以下音频驱动算法(EchoMimic) 使用EchoMimic算法生成肖像视频(音频驱动图像算法) 通过可编辑的地标调节实现逼真的音频驱动的肖像动画
EchoMimic不仅能够通过单独的音频和面部标志生成人像视频,还能够通过音频和选定的面部标志的组合生成人像视频。 使用中英文驱动示例 支持音频驱动包括中文,英文版,唱歌(sing)等等,详情可去仓库具体查看 EchoMimic项目地址:https://github.com/BadToBest/EchoMimic
EchoMimic主页地址:https://badtobest.github.io/echomimic.html
 最后, 随着开源大模型的水平的逐渐提高,我们可以借助他做越来越多的事情 期待你发挥自己的想象力,开发更多属于自己的本地模型应用! |