链载Ai

标题: Google 开源全球首个实时音乐大模型 [打印本页]

作者: 链载Ai 时间: 昨天 21:23
标题: Google 开源全球首个实时音乐大模型

谷歌 DeepMind开源 MAgenta RealTime（Magenta RT），这是全球首个支持实时交互的音乐生成大模型。

Magenta RT 有多牛？

Magenta RealTime 是全球首个开源的实时音乐生成大模型，它实现了 “创作快于播放”，在免费 Colab 平台上，生成 2 秒音乐仅需 1.25 秒，速度比实时播放快 60%。

它采用分块流式生成技术，把音乐切成 2 秒的小片段连续生成，每个片段都会参考前 10 秒的音乐背景，以保证旋律连贯演进。其跨模态控制能力，让用户能用文字描述或直接哼一段旋律，AI 就会自动理解意图。

它还采用了 SpectroStream 音频压缩器、拥有 8 亿参数大模型，并通过硬件加速优化提升了生成速度。

Magenta RT 是如何生成音乐的？

Magenta RealTime 通过以下方式生成音乐：

首先，它利用 SpectroStream 音频编码器对音乐进行编码，将 48kHz 立体声高保真音频转化为离散音频标记。

然后，它基于 MusicCoCa 嵌入技术，将文本提示或参考音频实时映射到语义空间，作为风格嵌入。

接着，基于 Transformer 的自回归模型根据前 10 秒的粗糙音频标记和风格嵌入，生成下一个 2 秒的细粒度音频标记。

最后，通过 SpectroStream 音频解码器将生成的音频标记还原为高保真音频。

该模型以 2 秒音频块为单位持续生成，每个片段动态融合前 10 秒的上下文音频，确保旋律连贯演进。

怎么体验Magenta RT？

目前有多种方式可以体验 Magenta RealTime：

一是通过官方的 Colab 演示，无需本地部署，直接在浏览器中运行即可。

二是本地部署，可从 GitHub 安装，支持 CPU、GPU、TPU 多种部署方式。

欢迎光临链载Ai (https://www.lianzai.com/)