|
在人工智能技术飞速发展的今天,音频处理领域也迎来了重大突破。Step-Audio-EditX作为全球首个开源的LLM音频编辑大模型,凭借其强大的功能和创新的技术架构,为音频创作和编辑带来了全新的可能性。
一、项目概述
Step-Audio-EditX是由阶跃星辰开发的开源音频编辑大模型,它基于3B参数的LLM架构,专注于音频的情感、说话风格和副语言编辑。该模型不仅支持零样本TTS(文本到语音合成),还能够通过迭代编辑实现情感和风格的细粒度控制。其核心创新在于仅使用大边距合成数据进行训练,无需额外的编码器或适配器,即可实现音频属性的解耦和迭代控制。
二、核心功能
(一)情感编辑
Step-Audio-EditX支持对音频进行情感编辑,涵盖愤怒、开心、悲伤等多种情感标签。用户可以通过简单的指令对音频的情感进行增强或减弱,甚至可以进行多次迭代编辑,以达到理想的强度。
(二)风格编辑
该模型能够对说话风格进行编辑,如撒娇、耳语、老人等风格。用户可以根据需要对音频进行风格叠加或微调,使语音更具表现力。
(三)副语言插入
Step-Audio-EditX还可以插入呼吸、笑声、叹气等10类自然副语言token,增强音频的自然度和情感表达。
(四)零样本TTS
无需目标人物的语音样本,Step-Audio-EditX即可克隆出音色。此外,用户还可以通过在文本前添加方言标签(如“\[四川话\]”“\[粤语\]”)直接切换方言。
三、技术揭秘
(一)双码本音频分词器
Step-Audio-EditX采用双码本音频分词器,将音频转换为离散token序列。其中,语言码本采样率为16.7 Hz,包含1024项;语义码本采样率为25 Hz,包含4096项。这种分词方式保留了音频的情感、韵律和语义信息,为后续的LLM处理提供了基础。
(二)音频LLM
音频LLM是Step-Audio-EditX的核心组件之一,它以文本LLM为基础进行热启动,参数量为3B。该LLM能够处理文本和音频token的输入,并生成目标token序列。通过大边距数据的训练,音频LLM能够实现情感和风格的解耦。
(三)音频解码器
音频解码器由流匹配模块和BigVGANv2声码器组成。流匹配模块基于DiT骨干网络,生成Mel频谱图;BigVGANv2声码器则将Mel频谱图转换为音频波形。该解码器在20万小时的高质量语音数据上进行训练,确保了发音的准确性和音色的一致性。
(四)大边距合成数据驱动
Step-Audio-EditX的训练数据完全基于大边距合成数据。通过生成“同文本、异属性”的音频对,模型能够在训练过程中专注于学习情感和风格的变化,从而实现属性解耦和迭代控制。
(五)两阶段后训练策略
1.监督微调(SFT):使用大边距合成数据对模型进行微调,使其具备零样本TTS和多样化音频编辑能力。
2.强化学习(PPO):采用PPO算法,结合人类标注和LLM-as-a-Judge生成的偏好数据,进一步提升模型在高难度编辑任务中的表现力。
四、性能表现
与Doubao-Seed-TTS-2.0和MiniMax-speech-2.6-hd等闭源模型对比,Step-Audio-EditX在零样本克隆和情感控制方面均优于这些模型。特别是在情感编辑迭代后,其效果甚至超过了闭源模型的原生情感控制功能
五、快速使用
(一)下载安装
1.克隆项目: gitclonehttps://github.com/stepfun-ai/Step-Audio-EditX.git 2.创建并激活Python环境: condacreate-nstepaudioeditpython=3.10condaactivatestepaudioeditpipinstall-rrequirements.txt 3.下载模型权重:
访问Hugging Face仓库(<https://huggingface.co/stepfun-ai/Step-Audio-EditX>)下载Step-Audio-Tokenizer和Step-Audio-EditX模型。 gitlfsinstallgitclonehttps://huggingface.co/stepfun-ai/Step-Audio-Tokenizergitclonehttps://huggingface.co/stepfun-ai/Step-Audio-EditX (二)启动运行
以下是docker运行示例: builddockerdockerbuild.-tstep-audio-editxrundockerdockerrun--rm--gpusall\-v/your/code/path:/app\-v/your/model/path:/model\-p7860:7860\step-audio-editx (三)Web Demo
用户可以通过以下方式体验Step-Audio-EditX的Web Demo,(GPU至少32GB以上) pythonapp.py--model-path/path/to/models 然后访问`localhost:7860`。
六、应用场景
(一)有声内容升级
Step-Audio-EditX可以快速为有声书、播客、新闻朗读等添加情感或风格,无需重新录音即可生成多版本音频,提升听众的沉浸感。
(二)视频与广告配音
在短视频、动画、广告片等场景中,Step-Audio-EditX能够零样本克隆角色音色,并通过迭代编辑添加多种风格,实现低成本、多角色、多情绪的自动配音。
(三)游戏/虚拟偶像
对于NPC、虚拟主播、VTuber等虚拟角色,Step-Audio-EditX可以实时插入笑声、呼吸、叹气等副语言,打造更鲜活、更具互动性的角色语音。
(四)智能客服与语音助手
智能客服机器人和语音助手可以利用Step-Audio-EditX将平淡的语音答复转换为热情或安抚的语气,改善用户体验。同时,该模型还支持方言标签,满足地域化服务需求。
(五)教育/语言学习
在线课程和语言学习应用可以利用Step-Audio-EditX生成适龄读音或切换方言,帮助学生更好地跟读模仿,降低教师录音成本。
(六)会议记录与无障碍
对于含有噪声或过长停顿的会议录音,Step-Audio-EditX可以进行降噪和静音修剪编辑,再根据需求调整语速或添加情感,生成清晰、易读的会议纪要音频。
七、结语
Step-Audio-EditX作为全球首个开源的LLM音频编辑大模型,凭借其强大的功能和创新的技术架构,为音频创作和编辑带来了全新的可能性。无论是在有声内容创作、视频配音,还是智能客服等领域,Step-Audio-EditX都展现出了巨大的应用潜力。随着技术的不断发展,我们期待Step-Audio-EditX在未来能够为音频处理领域带来更多惊喜。 |