返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

阿里发布开源语音交互模型 FunAudioLLM :各种语音黑科技一应俱全

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 10:35 |阅读模式 打印 上一主题 下一主题

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);height: auto !important;" src="https://api.ibos.cn/v4/weapparticle/accesswximg?aid=84983&url=aHR0cHM6Ly9tbWJpei5xcGljLmNuL3N6X21tYml6X3BuZy9JQ2duQXB0bG4wWERwUXlvTE5hVXBRVDY5b0pFUnA2TElQcThJYWZGMWNIUThOZ2dXMVROR2liSFdoUnJKOTFsaWJwSmxCUGNpYmliejI2dUxBRDBPNldYaWFRLzY0MD93eF9mbXQ9cG5nJmFtcA==;from=appmsg"/>



阿里发布超强语音处理模型FunAudioLLM,语音方向卷起来了,成熟度非常高,FunAudioLLM是一个旨在增强人与大语言模型 (LLMs) 之间自然语音交互的框架。其核心包括两个创新模型:SenseVoiceCosyVoice



SenseVoice专注于高精度的多语言语音识别、情感识别和音频事件检测,具备极低的延迟,支持超过50种语言


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;text-wrap: wrap;">

SenseVoice 是一种语音基础模型,具有多种语音理解功能,包括 ASR、LID、SER 和 AED。SenseVoice-Small 是一种仅编码器的语音基础模型,用于快速语音理解;SenseVoice-Large 是一种编码器-解码器语音基础模型,用于更准确的语音理解,支持更多的语言



CosyVoice则擅长自然语音生成,具备多语言、音色和情感控制能力,能够实现多语言语音生成、零样本语音生成、跨语言语音克隆和指令跟随功能



ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;text-wrap: wrap;">

CosyVoice 包含一个自回归变换器,用于为输入文本生成相应的语音标记;一个基于 ODE 的扩散模型(流匹配),用于从生成的语音标记重建梅尔频谱;以及一个基于 HiFTNet 的声码器,用于合成波形。虚线内的模块在特定的模型使用中是可选的,如跨语言、SFT 推断等



相关的SenseVoice和CosyVoice模型已在Modelscope和Huggingface上开源,其训练、推理和微调代码也已在GitHub上发布。通过将这些模型与LLMs结合,FunAudioLLM推动了语音交互技术的前沿,应用场景包括语音翻译、情感语音聊天、互动播客和富有表现力的有声读物叙述



实际表现‍‍‍‍



S2ST:语音到语音翻译



通过整合 SenseVoice、LLMs 和 CosyVoice,可以毫不费力地实现语音到语音的翻译 (Speech-to-Speech Translation),下面的例子是中文到英文,日语,韩语




情感语音聊天



通过整合 SenseVoice、LLMs 和 CosyVoice,开发一款情感语音聊天应用。在下面的例子中,用户和助理的内容都是由 CosyVoice 合成的






交互式播客



通过整合 SenseVoice(一个基于 LLM 的多代理系统,具有实时世界知识)和 CosyVoice,可以创建一个实时交互式播客




富有表现力的有声读物



通过 LLM 的分析能力来构建和识别书籍中的情感,并将其与 CosyVoice 相结合,可以实现具有更强表现力的有声读物


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ