返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

1.9K Star 微软开源TTS王炸!90分钟超长语音合成,4人对话自然切换!

[复制链接]
链载Ai 显示全部楼层 发表于 前天 19:23 |阅读模式 打印 上一主题 下一主题

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">在文本转语音(TTS)领域,生成长篇、多说话人的高质量音频(如播客)一直是技术挑战。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">传统TTS模型如ElevenLabs或CosyVoice受限于短序列生成(1-2分钟)或1-2位说话人,难以应对复杂对话场景。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">微软最新开源的ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(66, 166, 100);">VibeVoice TTS模型,可一次生成90分钟连续语音,支持4个不同说话人,超越了以往许多模型通常仅支持1-2位说话者的限制。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">其核心创新在于使用连续语音分词器(声学和语义)在超低帧率7.5 Hz下运行。可高效地保留音频保真度,同时显著提升处理长序列的计算效率。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">提供了两个主要系列模型:

    ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;color: rgb(63, 63, 63);" class="list-paddingleft-1">
  • ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">
    ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 13.5px;text-align: left;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">VibeVoice-1.5B:15亿参数模型,具有64K上下文长度,能够生成约90分钟的音频
  • ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">
    VibeVoice-7B-Preview:70亿参数模型,具有32K上下文长度,能够生成约45分钟的音频

GitHub:https://github.com/microsoft/VibeVoice

亮点特性

  • 超长语音生成:一次可生成 90 分钟连续语音,无需分段拼接
  • 多人对话支持:可同时生成 4 个不同说话人,自然衔接,适合播客、剧本对话
  • 高质量 & 一致性:在说话人保持和语音轮转上效果自然,听感接近真人
  • 高效处理长序列:采用两个连续语音分词器,以 7.5Hz 超低帧率运行,在保证音质的同时提升计算效率
  • 安全合规:模型输出自带 AI 声明水印,避免被滥用
  • 语言支持:目前支持中文 / 英文
  • 开源协议:MIT 许可证,开放自由度高

快速入手

微软官方上线了 VibeVoice 的Demo版本,可直接在线体验。(需魔法)

Demo:https://86636c494bbddc69c7.gradio.live

有硬件条件的也可以在本地部署:

前置要求:

  • • 支持 CUDA 的 GPU(推荐以获得合理性能)
  • • Python 3.8 或更高版本
  • • Docker(推荐用于环境管理)
  • • 至少 16GB 内存(对于较大模型建议 32GB)

部署方案 1:使用 Docker(推荐)

推荐使用 NVIDIA 深度学习容器来管理 CUDA 环境:

# 启动 Docker 容器
sudodocker run --privileged --net=host --ipc=host --ulimitmemlock=-1:-1 --ulimitstack=-1:-1 --gpus all --rm-it nvcr.io/nvidia/pytorch:24.07-py3

# 如果不包含 flash attention,请手动安装
# pip install flash-attn --no-build-isolation

部署方案 2:源码安装

# 克隆仓库
gitclonehttps://github.com/microsoft/VibeVoice.git
cdVibeVoice/

# 安装软件包
pip install -e .

实际用法

用法 1:启动 Gradio 演示

apt update && apt install ffmpeg -y# for demo

# For 1.5B model
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share

# For 7B model
python demo/gradio_demo.py --model_path WestZhang/VibeVoice-Large-pt --share

该方式将启动网页服务,需要下载 VibeVoice 模型并准备好语音样本。它会自动扫描 demo/voices 目录中的语音文件,并从 demo/text_examples 加载示例脚本。

用法 2:直接从文件中进行推理

# We provide some LLM generated example scripts under demo/text_examples/ for demo
# 单说话人
python demo/inference_from_file.py --model_path WestZhang/VibeVoice-Large-pt --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice

# 多说话人
python demo/inference_from_file.py --model_path WestZhang/VibeVoice-Large-pt --txt_path demo/text_examples/2p_music.txt --speaker_names Alice Yunfan

应用场景

  • 播客/有声书:长篇内容一键生成,多角色自然对话
  • 新闻/讲解类视频:低成本自动生成解说音频
  • 教育场景:课程讲解、语言学习音频生成
  • 剧本创作:模拟不同人物对话,快速听感验证

写在最后

VibeVoice是一个前沿框架,专为从文本生成富有表现力、长篇幅、多说话人的对话音频而设计。

由微软开发的这一创新系统解决了传统文本转语音(TTS)系统中的重大挑战,特别是在可扩展性、说话人一致性以及对话中的自然轮换方面。

尤其适合需要长时连续音频的场景。对于开发者和内容创作者来说,这无疑是一个极具潜力的开源工具

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ