链载Ai

标题: 【closerAI ComfyUI】8G显存就能跑!这款开源音乐模型—​​ACE-Step让AI作曲神级进化,行业规则被改写! [打印本页]

作者: 链载Ai    时间: 4 小时前
标题: 【closerAI ComfyUI】8G显存就能跑!这款开源音乐模型—​​ACE-Step让AI作曲神级进化,行业规则被改写!

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(25, 25, 25);visibility: visible;">

【closerAI ComfyUI】8G显存就能跑!这款开源音乐模型—ACE-Step让AI作曲神级进化,行业规则被改写!
ACE-Step(中文名“音跃”)是由中国AI公司阶跃星辰(StepFun)与音乐生成平台ACE Studio联合推出的开源音乐大模型,旨在通过多模态技术与生成式AI的深度融合,构建“音乐领域的Stable Diffusion时刻”。该项目于2025年5月9日正式发布,标志着音乐生成技术从单模态向全流程可控创作的重大突破。

在数字音乐创作领域,生成高质量、高可控性的音乐内容一直是技术攻关的核心挑战。传统方法如基于循环神经网络(RNN)或Transformer的端到端模型,往往面临生成速度慢、长序列连贯性不足或计算资源消耗巨大的问题。近年来,随着AI技术的爆发,两类代表性方案逐渐崭露头角:

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);margin-bottom: 24px;margin-left: 8px;margin-right: 8px;text-align: center;">闭源商业产品:商业化驱动的“孤岛式”创新

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);margin-bottom: 24px;margin-left: 8px;margin-right: 8px;">以Yue(网易伏羲)、SongGen(OpenAI)为代表的闭源模型,凭借强大的歌词对齐能力和商业化资源迅速占领市场,但其局限性也十分明显:

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);margin-bottom: 24px;margin-left: 8px;margin-right: 8px;">另一类是以DiffRhythm(Meta)为代表的开源扩散模型,虽通过概率采样实现了快速生成,但仍存在结构性缺陷:

在此背景下,ACE-Step(由中国团队阶跃星辰与ACE Studio联合开发)以开源开放为核心理念,通过架构创新与工程优化打破行业壁垒:

开源生态的崛起:ACE-Step的差异化之路

在此背景下,ACE-Step(由中国团队阶跃星辰与ACE Studio联合开发)以开源开放为核心理念,通过架构创新工程优化打破行业壁垒:

技术突破:三模块协同架构

  1. 扩散模型加速引擎
    融合Sana的Deep Compression AutoEncoder(DCAE),将音频压缩率提升300%,生成速度达20秒/4分钟音乐(A100 GPU),较闭源模型快15倍。

  2. 语义-结构双对齐机制
    通过MERT+m-hubert联合训练,实现歌词语义(REPA)与音乐结构的精准对齐,旋律-和声一致性准确率提升至92%(行业平均85%)。

  3. 轻量化控制架构
    基于线性Transformer的解码器支持歌词编辑、声纹克隆、风格迁移等细粒度控制

生态优势:开源社区的爆发力

相较于商业化产品的封闭性,ACE-Step通过以下方式重构音乐AI开发范式:

如此优秀的一个音乐生成模型,不仅能文生音乐,还能进行高级的控制生成,如语音克隆、歌词编辑、混音和音轨生成。目前comfyUI官方已原生支持这个模型。

comfyUI中的实现与体验

comfyUI官方实现的模型下载:

https://huggingface.co/Comfy-Org/ACE-Step_ComfyUI_repackaged/tree/main/all_in_one

下载这个模型后,放置在comfyUI/models/checkpoint中。

ACE-step 文生音频工作流搭建很简单,如下图示:


这里,我尝试了文生音频:

其它语言我不试了,我只搞中文!用哥哥的《追》来玩玩:

这一生也在进取 这分钟却挂念谁 我会说是唯独你不可失去 好风光似幻似虚 谁明人生乐趣 我会说为情为爱仍然是对 谁比你重要 成功了败了也完全无重要 谁比你重要 狂风与暴雨都因你燃烧 一追再追 只想追赶生命里一分一秒 原来多么可笑 你是真正目标 一追再追 追踪一些生活最基本需要 原来早不缺少

要先转拼音啦,用大语言模型来转:

在工作流中,上面是风格,下面是歌词。我也详细写了一些填写要点:

话不多说,执行队列!1分多钟时间可生成2分钟长度的音频!我是8G显存,大家作参考吧。

听一下:

这一生也在进取这分钟却挂念谁我会说是唯独你不可失去好风光似幻似虚谁明人生乐趣我会说为情为爱仍然是对谁比你重要成功了败了也完全无重要谁比你重要狂风与暴雨都因你燃烧一追再追只想追赶生命里一分一秒原来多么可笑你是真正目标一追再追追踪一些生活最基本需要原来早不缺少
以下是音频到音频的工作流:
我都放在同一个流中了。大家可自行搭建。
这个流注意的是,重绘幅度修改得小一点,约0.4。正如我们图像扩散一样的值.
虽然对中文支持一般般,但整体音乐生成对于我来讲,它是不错的。音乐方面我不是专业,但对于不懂制作音乐的小白来讲,它是牛逼的。相当于人均音乐生。


本地算力不够怎么办?

如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5