链载Ai

标题: 【closerAI ComfyUI】8G显存就能跑！这款开源音乐模型—ACE-Step让AI作曲神级进化，行业规则被改写！ [打印本页]

作者: 链载Ai 时间: 4 小时前
标题: 【closerAI ComfyUI】8G显存就能跑！这款开源音乐模型—ACE-Step让AI作曲神级进化，行业规则被改写！

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(25, 25, 25);visibility: visible;">

【closerAI ComfyUI】8G显存就能跑！这款开源音乐模型—ACE-Step让AI作曲神级进化，行业规则被改写！

ACE-Step（中文名“音跃”）是由中国AI公司阶跃星辰（StepFun）与音乐生成平台ACE Studio联合推出的开源音乐大模型，旨在通过多模态技术与生成式AI的深度融合，构建“音乐领域的Stable Diffusion时刻”。该项目于2025年5月9日正式发布，标志着音乐生成技术从单模态向全流程可控创作的重大突破。

在数字音乐创作领域，生成高质量、高可控性的音乐内容一直是技术攻关的核心挑战。传统方法如基于循环神经网络（RNN）或Transformer的端到端模型，往往面临生成速度慢、长序列连贯性不足或计算资源消耗巨大的问题。近年来，随着AI技术的爆发，两类代表性方案逐渐崭露头角：

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);margin-bottom: 24px;margin-left: 8px;margin-right: 8px;text-align: center;">闭源商业产品：商业化驱动的“孤岛式”创新

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);margin-bottom: 24px;margin-left: 8px;margin-right: 8px;">以Yue（网易伏羲）、SongGen（OpenAI）为代表的闭源模型，凭借强大的歌词对齐能力和商业化资源迅速占领市场，但其局限性也十分明显：

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);margin-bottom: 24px;margin-left: 8px;margin-right: 8px;">封闭生态：模型权重不公开，开发者无法二次开发或定制化；
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);margin-bottom: 24px;margin-left: 8px;margin-right: 8px;">性能瓶颈：依赖单一模态输入（如纯文本），难以支持音频编辑或多语言场景；
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);margin-bottom: 24px;margin-left: 8px;margin-right: 8px;">成本高昂：推理速度慢（生成4分钟音乐需5分钟），中小团队难以负担算力成本。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);margin-bottom: 24px;margin-left: 8px;margin-right: 8px;">另一类是以DiffRhythm（Meta）为代表的开源扩散模型，虽通过概率采样实现了快速生成，但仍存在结构性缺陷：

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);margin-bottom: 24px;margin-left: 8px;margin-right: 8px;">长尾问题：生成结果易出现节奏断裂或旋律重复；
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);margin-bottom: 24px;margin-left: 8px;margin-right: 8px;">可控性差：难以精准调整风格或歌词细节；
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);margin-bottom: 24px;margin-left: 8px;margin-right: 8px;">计算冗余：扩散过程的迭代特性导致生成效率低下。

在此背景下，ACE-Step（由中国团队阶跃星辰与ACE Studio联合开发）以开源开放为核心理念，通过架构创新与工程优化打破行业壁垒：

开源生态的崛起：ACE-Step的差异化之路

在此背景下，ACE-Step（由中国团队阶跃星辰与ACE Studio联合开发）以开源开放为核心理念，通过架构创新与工程优化打破行业壁垒：

技术突破：三模块协同架构

扩散模型加速引擎
融合Sana的Deep Compression AutoEncoder（DCAE），将音频压缩率提升300%，生成速度达20秒/4分钟音乐（A100 GPU），较闭源模型快15倍。
语义-结构双对齐机制
通过MERT+m-hubert联合训练，实现歌词语义（REPA）与音乐结构的精准对齐，旋律-和声一致性准确率提升至92%（行业平均85%）。
轻量化控制架构
基于线性Transformer的解码器支持歌词编辑、声纹克隆、风格迁移等细粒度控制

生态优势：开源社区的爆发力

相较于商业化产品的封闭性，ACE-Step通过以下方式重构音乐AI开发范式：

全链路开源
：模型权重、训练代码及ComfyUI工作流全面开放；
低成本扩展
：支持LoRA微调（仅需100MB显存即可训练个性化模型）；
多模态融合
：原生支持文本、音频、歌词标签（如[verse]、[chorus]）的混合输入。

如此优秀的一个音乐生成模型，不仅能文生音乐，还能进行高级的控制生成，如语音克隆、歌词编辑、混音和音轨生成。目前comfyUI官方已原生支持这个模型。

comfyUI中的实现与体验

comfyUI官方实现的模型下载：

https://huggingface.co/Comfy-Org/ACE-Step_ComfyUI_repackaged/tree/main/all_in_one

下载这个模型后，放置在comfyUI/models/checkpoint中。

ACE-step 文生音频工作流搭建很简单，如下图示：

确保 Load Checkpoints 节点加载了 ace_step_v1_3.5b.safetensors 模型
在 TextEncodeAceStepAudio 的 tags 输入对应的音乐风格等等
在 TextEncodeAceStepAudio 的 lyrics 中输入对应的歌词，如果你不知道该输入哪些歌词
点击 Run 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行音频的生成。
等待内容生成返回结果后，你可在 Save Audio 节点中查看生成的音频，你可以点击播放试听，对应的音频也会被保存至 ComfyUI/output/audio （由Save Audio节点决定子目录名称）。

这里，我尝试了文生音频：

其它语言我不试了，我只搞中文！用哥哥的《追》来玩玩：

这一生也在进取这分钟却挂念谁我会说是唯独你不可失去好风光似幻似虚谁明人生乐趣我会说为情为爱仍然是对谁比你重要成功了败了也完全无重要谁比你重要狂风与暴雨都因你燃烧一追再追只想追赶生命里一分一秒原来多么可笑你是真正目标一追再追追踪一些生活最基本需要原来早不缺少

要先转拼音啦，用大语言模型来转：

在工作流中，上面是风格，下面是歌词。我也详细写了一些填写要点：

话不多说，执行队列！1分多钟时间可生成2分钟长度的音频！我是8G显存，大家作参考吧。

听一下：

这一生也在进取这分钟却挂念谁我会说是唯独你不可失去好风光似幻似虚谁明人生乐趣我会说为情为爱仍然是对谁比你重要成功了败了也完全无重要谁比你重要狂风与暴雨都因你燃烧一追再追只想追赶生命里一分一秒原来多么可笑你是真正目标一追再追追踪一些生活最基本需要原来早不缺少

以下是音频到音频的工作流：

我都放在同一个流中了。大家可自行搭建。

这个流注意的是，重绘幅度修改得小一点，约0.4。正如我们图像扩散一样的值.

虽然对中文支持一般般，但整体音乐生成对于我来讲，它是不错的。音乐方面我不是专业，但对于不懂制作音乐的小白来讲，它是牛逼的。相当于人均音乐生。

本地算力不够怎么办？

如果本地设备算力不好的小伙伴，推荐使用线上comfyUI来运行体验：runninghub.cn

欢迎光临链载Ai (https://www.lianzai.com/)