链载Ai
标题:
Google 开源全球首个实时音乐大模型
[打印本页]
作者:
链载Ai
时间:
昨天 21:23
标题:
Google 开源全球首个实时音乐大模型
谷歌 DeepMind开源 MAgenta RealTime(Magenta RT),这是全球首个支持实时交互的音乐生成大模型。
Magenta RT 有多牛?
Magenta RealTime 是全球首个开源的实时音乐生成大模型,它实现了 “创作快于播放”,在免费 Colab 平台上,生成 2 秒音乐仅需 1.25 秒,速度比实时播放快 60%。
它采用分块流式生成技术,把音乐切成 2 秒的小片段连续生成,每个片段都会参考前 10 秒的音乐背景,以保证旋律连贯演进。其跨模态控制能力,让用户能用文字描述或直接哼一段旋律,AI 就会自动理解意图。
它还采用了 SpectroStream 音频压缩器、拥有 8 亿参数大模型,并通过硬件加速优化提升了生成速度。
Magenta RT 是如何生成音乐的?
Magenta RealTime 通过以下方式生成音乐:
首先,它利用 SpectroStream 音频编码器对音乐进行编码,将 48kHz 立体声高保真音频转化为离散音频标记。
然后,它基于 MusicCoCa 嵌入技术,将文本提示或参考音频实时映射到语义空间,作为风格嵌入。
接着,基于 Transformer 的自回归模型根据前 10 秒的粗糙音频标记和风格嵌入,生成下一个 2 秒的细粒度音频标记。
最后,通过 SpectroStream 音频解码器将生成的音频标记还原为高保真音频。
该模型以 2 秒音频块为单位持续生成,每个片段动态融合前 10 秒的上下文音频,确保旋律连贯演进。
怎么体验Magenta RT?
目前有多种方式可以体验 Magenta RealTime:
一是通过官方的 Colab 演示,无需本地部署,直接在浏览器中运行即可。
二是本地部署,可从 GitHub 安装,支持 CPU、GPU、TPU 多种部署方式。
欢迎光临 链载Ai (https://www.lianzai.com/)
Powered by Discuz! X3.5