返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

你想精通多国语言吗?借助本地大模型,开发一个跨语言翻译系统

[复制链接]
链载Ai 显示全部楼层 发表于 5 小时前 |阅读模式 打印 上一主题 下一主题

你是否还记得那些年为了四六级考试而奋斗的日子?

是否也曾羡慕那些能够说一口流利外语的人?

现在,有了AI翻译技术,我们也能轻松地掌握多国语言,让沟通无国界。

本文介绍借助本地大模型,开发一个跨语言翻译系统,花费大概4小时

功能:保持原有的音色,将你的说话语言翻译成其他语言

目前支持语言:
Chinese/English/Japanese/Cantonese/Korean(<|zh|en|jp|yue|ko)

实现方法通过集成SenseVoice、CosyVoice、本地大模型(qwen2:7b),完成语音翻译

首先将输入的语音通过Sensevoice转成文字,输入给大模型,转出目标语言文字,最后通过CosyVoice的多语言复刻模型转成目标语言语音,最后完成语音到语音的翻译

原理如下:

关于FunAudioLLM,请查看文章:
AI语音生成天花板,全网最实用,玩转ChatTTS&FunAudioLLM

关于如何下载和使用本地模型,请查看文章:本地知识库+本地大模型,借助RAGFlow搭建医院医疗问诊助手,纯本地,超实用!

关于语音识别SenseVoice

SenseVoice-Small模型部署了一个非自回归的端到端架构,从而实现了极低的推理延迟。由于与Whisper-Small模型的参数数量相似,它的推断速度比Whisper-Small快5倍以上,比Whisper-Large快15倍。

开发前准备

1完成本地大模型的下载和运行(qwen2:7b);
2代码下载;
3完成conda环境的安装部署

开发多语言翻译系统

使用方法

1 免费领取文件后,解压

2 下载模型
进入\FunAudioLLM\CosyVoice,
执行download_model_script.py

或者解压公号领取的文件pretrained_models.rar

3 启动项目 进入FunAudioLLM\s2st,启动文件

pythonwebui.py

4 开始使用

使用示例:

上传初始音频:

翻译为英文


翻译为日语

或许你可能需要再进一步,将声音驱动口型,进一步创建自己的翻译数字人

那么你可以尝试查看以下音频驱动算法(EchoMimic)

使用EchoMimic算法生成肖像视频

(音频驱动图像算法)

通过可编辑的地标调节实现逼真的音频驱动的肖像动画 EchoMimic不仅能够通过单独的音频和面部标志生成人像视频,还能够通过音频和选定的面部标志的组合生成人像视频。

使用中英文驱动示例

支持音频驱动包括中文,英文版,唱歌(sing)等等,详情可去仓库具体查看

EchoMimic项目地址:https://github.com/BadToBest/EchoMimic EchoMimic主页地址:https://badtobest.github.io/echomimic.html

最后,

随着开源大模型的水平的逐渐提高,我们可以借助他做越来越多的事情

期待你发挥自己的想象力,开发更多属于自己的本地模型应用!

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ