Step-Audio-EditX是由阶跃星辰开发的开源音频编辑大模型,它基于3B参数的LLM架构,专注于音频的情感、说话风格和副语言编辑。该模型不仅支持零样本TTS(文本到语音合成),还能够通过迭代编辑实现情感和风格的细粒度控制。其核心创新在于仅使用大边距合成数据进行训练,无需额外的编码器或适配器,即可实现音频属性的解耦和迭代控制。
Step-Audio-EditX支持对音频进行情感编辑,涵盖愤怒、开心、悲伤等多种情感标签。用户可以通过简单的指令对音频的情感进行增强或减弱,甚至可以进行多次迭代编辑,以达到理想的强度。
该模型能够对说话风格进行编辑,如撒娇、耳语、老人等风格。用户可以根据需要对音频进行风格叠加或微调,使语音更具表现力。
Step-Audio-EditX还可以插入呼吸、笑声、叹气等10类自然副语言token,增强音频的自然度和情感表达。
无需目标人物的语音样本,Step-Audio-EditX即可克隆出音色。此外,用户还可以通过在文本前添加方言标签(如“\[四川话\]”“\[粤语\]”)直接切换方言。
Step-Audio-EditX采用双码本音频分词器,将音频转换为离散token序列。其中,语言码本采样率为16.7 Hz,包含1024项;语义码本采样率为25 Hz,包含4096项。这种分词方式保留了音频的情感、韵律和语义信息,为后续的LLM处理提供了基础。
音频LLM是Step-Audio-EditX的核心组件之一,它以文本LLM为基础进行热启动,参数量为3B。该LLM能够处理文本和音频token的输入,并生成目标token序列。通过大边距数据的训练,音频LLM能够实现情感和风格的解耦。
音频解码器由流匹配模块和BigVGANv2声码器组成。流匹配模块基于DiT骨干网络,生成Mel频谱图;BigVGANv2声码器则将Mel频谱图转换为音频波形。该解码器在20万小时的高质量语音数据上进行训练,确保了发音的准确性和音色的一致性。
Step-Audio-EditX的训练数据完全基于大边距合成数据。通过生成“同文本、异属性”的音频对,模型能够在训练过程中专注于学习情感和风格的变化,从而实现属性解耦和迭代控制。
1.监督微调(SFT):使用大边距合成数据对模型进行微调,使其具备零样本TTS和多样化音频编辑能力。
2.强化学习(PPO):采用PPO算法,结合人类标注和LLM-as-a-Judge生成的偏好数据,进一步提升模型在高难度编辑任务中的表现力。
与Doubao-Seed-TTS-2.0和MiniMax-speech-2.6-hd等闭源模型对比,Step-Audio-EditX在零样本克隆和情感控制方面均优于这些模型。特别是在情感编辑迭代后,其效果甚至超过了闭源模型的原生情感控制功能
1.克隆项目:
gitclonehttps://github.com/stepfun-ai/Step-Audio-EditX.git
2.创建并激活Python环境:
condacreate-nstepaudioeditpython=3.10condaactivatestepaudioeditpipinstall-rrequirements.txt
3.下载模型权重:
访问Hugging Face仓库(<https://huggingface.co/stepfun-ai/Step-Audio-EditX>)下载Step-Audio-Tokenizer和Step-Audio-EditX模型。
gitlfsinstallgitclonehttps://huggingface.co/stepfun-ai/Step-Audio-Tokenizergitclonehttps://huggingface.co/stepfun-ai/Step-Audio-EditX
以下是docker运行示例:
builddockerdockerbuild.-tstep-audio-editxrundockerdockerrun--rm--gpusall\-v/your/code/path:/app\-v/your/model/path:/model\-p7860:7860\step-audio-editx
用户可以通过以下方式体验Step-Audio-EditX的Web Demo,(GPU至少32GB以上)
pythonapp.py--model-path/path/to/models
然后访问`localhost:7860`。
Step-Audio-EditX可以快速为有声书、播客、新闻朗读等添加情感或风格,无需重新录音即可生成多版本音频,提升听众的沉浸感。
在短视频、动画、广告片等场景中,Step-Audio-EditX能够零样本克隆角色音色,并通过迭代编辑添加多种风格,实现低成本、多角色、多情绪的自动配音。
对于NPC、虚拟主播、VTuber等虚拟角色,Step-Audio-EditX可以实时插入笑声、呼吸、叹气等副语言,打造更鲜活、更具互动性的角色语音。
智能客服机器人和语音助手可以利用Step-Audio-EditX将平淡的语音答复转换为热情或安抚的语气,改善用户体验。同时,该模型还支持方言标签,满足地域化服务需求。
在线课程和语言学习应用可以利用Step-Audio-EditX生成适龄读音或切换方言,帮助学生更好地跟读模仿,降低教师录音成本。
对于含有噪声或过长停顿的会议录音,Step-Audio-EditX可以进行降噪和静音修剪编辑,再根据需求调整语速或添加情感,生成清晰、易读的会议纪要音频。
Step-Audio-EditX作为全球首个开源的LLM音频编辑大模型,凭借其强大的功能和创新的技术架构,为音频创作和编辑带来了全新的可能性。无论是在有声内容创作、视频配音,还是智能客服等领域,Step-Audio-EditX都展现出了巨大的应用潜力。随着技术的不断发展,我们期待Step-Audio-EditX在未来能够为音频处理领域带来更多惊喜。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |