字节跳动开源RL框架verl：让大模型强化学习效率提升20倍，已支持671B参数模型训练

显示全部楼层

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">当大模型进入「后训练时代」，如何高效对齐人类偏好、提升推理与工具使用能力成为核心课题。近日，字节跳动Seed团队开源了强化学习框架verl，不仅实现了吞吐量20倍的突破，更让复杂RL算法的部署门槛大幅降低。

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;margin-top: 0px;margin-bottom: 8px;font-size: 22px;padding-bottom: 12px;">从HybridFlow到verl：工业级RLHF框架的开源之路

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">verl的前身是字节跳动内部研发的HybridFlow框架，其核心论文已被顶会EuroSys 2025收录。作为生产级别的大模型强化学习工具，它解决了传统RLHF流程中的三大痛点：

效率瓶颈：通过3D-HybridEngine实现模型动态重分片，消除训练与生成阶段的内存冗余，通信开销降低60%
算法壁垒：独创混合控制器编程模型，让GRPO、PPO等算法的实现只需数十行代码
资源限制：支持FSDP、Megatron-LM等分布式训练方案，已成功训练671B参数的DeepSeek模型

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;margin-top: 0px;margin-bottom: 8px;font-size: 22px;padding-bottom: 12px;">五大核心特性，重新定义大模型RL训练

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;margin-top: 0px;margin-bottom: 8px;font-size: 20px;padding-bottom: 12px;">1. 算法生态：从经典到前沿的全支持

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">verl已集成15+主流强化学习算法，涵盖：

经典方案：PPO、DPO、RLOO
推理优化：DAPO（AIME基准达60.4分）、VAPO
多轮交互：SPPO、ReTool（工具调用场景）

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">每个算法都提供完整的训练脚本，以GRPO为例，仅需配置模型路径和数据集即可启动分布式训练：

# 以Qwen3-8B为例的GRPO训练命令
python -m verl.trainer.main_ppo \
  algorithm.adv_estimator=grpo \
  data.train_files=/data/gsm8k/train.parquet \
  data.val_files=/data/gsm8k/test.parquet \
  data.train_batch_size=1024 \
  data.max_prompt_length=512 \
  data.max_response_length=1024 \
  data.filter_overlong_prompts=True \
  data.truncation='error'\
  actor_rollout_ref.model.path=Qwen/Qwen3-8B \
  actor_rollout_ref.actor.optim.lr=1e-6 \
  actor_rollout_ref.model.use_remove_padding=True \
  actor_rollout_ref.actor.ppo_mini_batch_size=256 \
  actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=40 \
  actor_rollout_ref.actor.use_kl_loss=True \
  actor_rollout_ref.actor.kl_loss_coef=0.001 \
  actor_rollout_ref.actor.kl_loss_type=low_var_kl \
  actor_rollout_ref.actor.entropy_coeff=0 \
  actor_rollout_ref.actor.strategy=fsdp2 \
  actor_rollout_ref.model.enable_gradient_checkpointing=False \
  actor_rollout_ref.actor.fsdp_config.param_offload=True \
  actor_rollout_ref.actor.fsdp_config.optimizer_offload=True \
  actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=40 \
  actor_rollout_ref.rollout.tensor_model_parallel_size=2 \
  actor_rollout_ref.rollout.name=vllm \
  actor_rollout_ref.rollout.gpu_memory_utilization=0.6 \
  actor_rollout_ref.rollout.n=5 \
  actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=40 \
  actor_rollout_ref.ref.fsdp_config.param_offload=True \
  actor_rollout_ref.ref.strategy=fsdp2 \
  algorithm.use_kl_in_reward=False \
  trainer.critic_warmup=0 \
  trainer.logger=['console','tensorboard'] \
  trainer.project_name='verl_grpo_example_gsm8k_record'\
  trainer.experiment_name='qwen2_7b_function_rm_re'\
  trainer.n_gpus_per_node=8 \
  trainer.nnodes=1 \
  trainer.save_freq=20 \
  trainer.test_freq=5 \
  trainer.total_epochs=15

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;margin-top: 0px;margin-bottom: 8px;font-size: 20px;padding-bottom: 12px;">2. 硬件适配：从单卡到超大规模集群

框架支持多维度硬件优化：

计算引擎：兼容vLLM、SGLang等推理加速库，生成吞吐量提升3倍
设备调度：灵活的GPU映射策略，支持训练/推理分离部署
极致性能：采用FlashAttention2和Liger-kernel，显存占用降低40%

3. 工程化设计：工业级训练保障

断点续训：支持训练状态全量保存，故障恢复无需重跑
监控体系：集成wandb、mlflow等实验跟踪工具，实时可视化训练曲线
弹性扩展：通过Ray实现资源动态调度，支持数百GPU集群

4. 多模态能力：不止于文本

verl已原生支持视觉-语言模型训练，通过Qwen2.5-VL等模型实现：

图文混合指令跟随
视觉推理任务优化
多模态工具调用（如OCR+搜索组合）

5. 社区生态：从学术研究到产业落地

超过20个机构基于verl开展研究，包括：

清华大学：多轮对话RLHF优化
香港大学：代码生成领域的PPO改进
微软：Agent-Lightning代理框架

快速上手：从零开始的RL训练

环境准备

# 基础依赖安装
pip install -r requirements.txt
# 如需CUDA加速
pip install -r requirements-cuda.txt

典型工作流

1.监督微调（SFT）：使用HuggingFace数据集初始化模型
2.奖励模型训练：构建偏好数据训练评分模型
3.RL优化：选择合适算法进行策略迭代
4.评估部署：集成vLLM实现高效推理服务

未来路线图：更开放的强化学习生态

根据官方规划，verl将在Q3重点推进：

异步离线策略架构
多智能体训练支持
更大规模MoE模型优化
强化学习与工具使用深度融合

字节跳动Seed团队表示，verl的开源不仅是技术输出，更希望推动强化学习在大模型领域的标准化。目前团队正招募RL算法与工程专家，共同完善这一生态。