Microsoft 推出用于更长对话式 AI 音频的 VibeVoice 且开源

显示全部楼层

微软发布了 VibeVoice，这是一个新的开源人工智能（AI）模型，用户可以利用它来创建播客和其他音频内容，这是对谷歌流行的 NotebookLM 的一种回应。

但两者之间存在显著差异。微软的文本转语音模型可以生成四种声音，并且能够制作长达 90 分钟的播客质量语音。而 NotebookLM 只能生成两种声音。

此外，VibeVoice 可以阅读和组织文本，而 NotebookLM 则是处理文档并将其转换为两人播客。根据技术公司 Hugging Face 的说法，用户还可以查询并获取文档摘要。这意味着 VibeVoice 并不试图理解文本，而是将其以可听的方式呈现，其目的是取代录音棚。

VibeVoice 是语音 AI 技术的最新产品，该领域一直吸引着风险投资资金。根据市场研究公司 CB Insights 的数据，2024 年，语音 AI 初创公司筹集了 21 亿美元的资金，比前一年增长了八倍。语音购物的兴趣也在增加：PYMNTS Intelligence 的一份报告显示，30.4% 的 Z 世代消费者每周都会通过语音购物，其次是千禧一代。在所有年龄段中，平均有 17.9% 的消费者使用语音购物。

VibeVoice 拥有 15 亿个参数，对于一个能够支持多说话者对话的模型来说，这个规模相对较小。它是使用阿里巴巴开源的 Qwen2.5 进行训练的，这是一个大型语言模型，有助于在对话中协调自然的轮流发言和上下文感知的语音模式。

微软声称，这意味着 VibeVoice 可以在四种声音之间产生流畅的对话，同时在更长的对话中保持每种声音的独特特征。

如何使用 VibeVoice

VibeVoice 的潜在研究应用包括以下方面：

播客和培训内容的原型设计

创作者可以利用多种 AI 声音生成模拟播客、小组讨论或培训模块。与其聘请四位配音演员来测试对话流程，用户可以在几分钟内使用文本创建一个合成版本。

无障碍和教育

教育材料、教科书或研究论文可以被转换为具有不同旁白的长篇音频。这可以帮助那些通过听觉学习效果更好的人，或者使晦涩的材料更具吸引力。

游戏和媒体开发

游戏开发者或讲故事的人可以利用 VibeVoice 来设计角色之间的对话。因为它可以处理四个说话者，所以你可以安排一场完整的游戏中对话，而无需进行录音会话。

鉴于深度伪造的风险，微软表示，VibeVoice 的防护措施包括确保每个音频文件都包含免责声明（例如“本段由 AI 生成”）和隐藏的数字水印。

它禁止模仿、虚假信息以及实时语音转换等实时深度伪造用途，例如在通话中的语音转换。目前，它仅支持英语和中文语音。该模型仅用于研究，而非商业部署。