Step-Audio-EditX：用大语言模型“雕琢”声音，开启音频编辑新视界！

显示全部楼层

在人工智能技术飞速发展的今天，音频处理领域也迎来了重大突破。Step-Audio-EditX作为全球首个开源的LLM音频编辑大模型，凭借其强大的功能和创新的技术架构，为音频创作和编辑带来了全新的可能性。

一、项目概述

Step-Audio-EditX是由阶跃星辰开发的开源音频编辑大模型，它基于3B参数的LLM架构，专注于音频的情感、说话风格和副语言编辑。该模型不仅支持零样本TTS（文本到语音合成），还能够通过迭代编辑实现情感和风格的细粒度控制。其核心创新在于仅使用大边距合成数据进行训练，无需额外的编码器或适配器，即可实现音频属性的解耦和迭代控制。

二、核心功能

（一）情感编辑

Step-Audio-EditX支持对音频进行情感编辑，涵盖愤怒、开心、悲伤等多种情感标签。用户可以通过简单的指令对音频的情感进行增强或减弱，甚至可以进行多次迭代编辑，以达到理想的强度。

（二）风格编辑

该模型能够对说话风格进行编辑，如撒娇、耳语、老人等风格。用户可以根据需要对音频进行风格叠加或微调，使语音更具表现力。

（三）副语言插入

Step-Audio-EditX还可以插入呼吸、笑声、叹气等10类自然副语言token，增强音频的自然度和情感表达。

（四）零样本TTS

无需目标人物的语音样本，Step-Audio-EditX即可克隆出音色。此外，用户还可以通过在文本前添加方言标签（如“\[四川话\]”“\[粤语\]”）直接切换方言。

三、技术揭秘

（一）双码本音频分词器

Step-Audio-EditX采用双码本音频分词器，将音频转换为离散token序列。其中，语言码本采样率为16.7 Hz，包含1024项；语义码本采样率为25 Hz，包含4096项。这种分词方式保留了音频的情感、韵律和语义信息，为后续的LLM处理提供了基础。

（二）音频LLM

音频LLM是Step-Audio-EditX的核心组件之一，它以文本LLM为基础进行热启动，参数量为3B。该LLM能够处理文本和音频token的输入，并生成目标token序列。通过大边距数据的训练，音频LLM能够实现情感和风格的解耦。

（三）音频解码器

音频解码器由流匹配模块和BigVGANv2声码器组成。流匹配模块基于DiT骨干网络，生成Mel频谱图；BigVGANv2声码器则将Mel频谱图转换为音频波形。该解码器在20万小时的高质量语音数据上进行训练，确保了发音的准确性和音色的一致性。

（四）大边距合成数据驱动

Step-Audio-EditX的训练数据完全基于大边距合成数据。通过生成“同文本、异属性”的音频对，模型能够在训练过程中专注于学习情感和风格的变化，从而实现属性解耦和迭代控制。

（五）两阶段后训练策略

1.监督微调（SFT）：使用大边距合成数据对模型进行微调，使其具备零样本TTS和多样化音频编辑能力。

2.强化学习（PPO）：采用PPO算法，结合人类标注和LLM-as-a-Judge生成的偏好数据，进一步提升模型在高难度编辑任务中的表现力。

四、性能表现

与Doubao-Seed-TTS-2.0和MiniMax-speech-2.6-hd等闭源模型对比，Step-Audio-EditX在零样本克隆和情感控制方面均优于这些模型。特别是在情感编辑迭代后，其效果甚至超过了闭源模型的原生情感控制功能

五、快速使用

（一）下载安装

1.克隆项目：

gitclonehttps://github.com/stepfun-ai/Step-Audio-EditX.git

2.创建并激活Python环境：

condacreate-nstepaudioeditpython=3.10condaactivatestepaudioeditpipinstall-rrequirements.txt

3.下载模型权重：

访问Hugging Face仓库（<https://huggingface.co/stepfun-ai/Step-Audio-EditX>）下载Step-Audio-Tokenizer和Step-Audio-EditX模型。

gitlfsinstallgitclonehttps://huggingface.co/stepfun-ai/Step-Audio-Tokenizergitclonehttps://huggingface.co/stepfun-ai/Step-Audio-EditX

（二）启动运行

以下是docker运行示例：

builddockerdockerbuild.-tstep-audio-editxrundockerdockerrun--rm--gpusall\-v/your/code/path:/app\-v/your/model/path:/model\-p7860:7860\step-audio-editx

（三）Web Demo

用户可以通过以下方式体验Step-Audio-EditX的Web Demo，（GPU至少32GB以上）

pythonapp.py--model-path/path/to/models

然后访问`localhost:7860`。

六、应用场景

（一）有声内容升级

Step-Audio-EditX可以快速为有声书、播客、新闻朗读等添加情感或风格，无需重新录音即可生成多版本音频，提升听众的沉浸感。

（二）视频与广告配音

在短视频、动画、广告片等场景中，Step-Audio-EditX能够零样本克隆角色音色，并通过迭代编辑添加多种风格，实现低成本、多角色、多情绪的自动配音。

（三）游戏/虚拟偶像

对于NPC、虚拟主播、VTuber等虚拟角色，Step-Audio-EditX可以实时插入笑声、呼吸、叹气等副语言，打造更鲜活、更具互动性的角色语音。

（四）智能客服与语音助手

智能客服机器人和语音助手可以利用Step-Audio-EditX将平淡的语音答复转换为热情或安抚的语气，改善用户体验。同时，该模型还支持方言标签，满足地域化服务需求。

（五）教育/语言学习

在线课程和语言学习应用可以利用Step-Audio-EditX生成适龄读音或切换方言，帮助学生更好地跟读模仿，降低教师录音成本。

（六）会议记录与无障碍

对于含有噪声或过长停顿的会议录音，Step-Audio-EditX可以进行降噪和静音修剪编辑，再根据需求调整语速或添加情感，生成清晰、易读的会议纪要音频。

七、结语

Step-Audio-EditX作为全球首个开源的LLM音频编辑大模型，凭借其强大的功能和创新的技术架构，为音频创作和编辑带来了全新的可能性。无论是在有声内容创作、视频配音，还是智能客服等领域，Step-Audio-EditX都展现出了巨大的应用潜力。随着技术的不断发展，我们期待Step-Audio-EditX在未来能够为音频处理领域带来更多惊喜。