返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

字节跳动开源RL框架verl:让大模型强化学习效率提升20倍,已支持671B参数模型训练

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 22:41 |阅读模式 打印 上一主题 下一主题

Image

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">当大模型进入「后训练时代」,如何高效对齐人类偏好、提升推理与工具使用能力成为核心课题。近日,字节跳动Seed团队开源了强化学习框架verl,不仅实现了吞吐量20倍的突破,更让复杂RL算法的部署门槛大幅降低。

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;margin-top: 0px;margin-bottom: 8px;font-size: 22px;padding-bottom: 12px;">从HybridFlow到verl:工业级RLHF框架的开源之路

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">verl的前身是字节跳动内部研发的HybridFlow框架,其核心论文已被顶会EuroSys 2025收录。作为生产级别的大模型强化学习工具,它解决了传统RLHF流程中的三大痛点:

    ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;line-height: 30px;padding-left: 20px;" class="list-paddingleft-1">
  • 效率瓶颈:通过3D-HybridEngine实现模型动态重分片,消除训练与生成阶段的内存冗余,通信开销降低60%
  • 算法壁垒:独创混合控制器编程模型,让GRPO、PPO等算法的实现只需数十行代码
  • 资源限制:支持FSDP、Megatron-LM等分布式训练方案,已成功训练671B参数的DeepSeek模型
Image

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;margin-top: 0px;margin-bottom: 8px;font-size: 22px;padding-bottom: 12px;">五大核心特性,重新定义大模型RL训练

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;margin-top: 0px;margin-bottom: 8px;font-size: 20px;padding-bottom: 12px;">1. 算法生态:从经典到前沿的全支持

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">verl已集成15+主流强化学习算法,涵盖:

    ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;line-height: 30px;padding-left: 20px;" class="list-paddingleft-1">
  • 经典方案:PPO、DPO、RLOO
  • 推理优化:DAPO(AIME基准达60.4分)、VAPO
  • 多轮交互:SPPO、ReTool(工具调用场景)

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">每个算法都提供完整的训练脚本,以GRPO为例,仅需配置模型路径和数据集即可启动分布式训练:

# 以Qwen3-8B为例的GRPO训练命令
python -m verl.trainer.main_ppo \
algorithm.adv_estimator=grpo \
data.train_files=/data/gsm8k/train.parquet \
data.val_files=/data/gsm8k/test.parquet \
data.train_batch_size=1024 \
data.max_prompt_length=512 \
data.max_response_length=1024 \
data.filter_overlong_prompts=True \
data.truncation='error'\
actor_rollout_ref.model.path=Qwen/Qwen3-8B \
actor_rollout_ref.actor.optim.lr=1e-6 \
actor_rollout_ref.model.use_remove_padding=True \
actor_rollout_ref.actor.ppo_mini_batch_size=256 \
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=40 \
actor_rollout_ref.actor.use_kl_loss=True \
actor_rollout_ref.actor.kl_loss_coef=0.001 \
actor_rollout_ref.actor.kl_loss_type=low_var_kl \
actor_rollout_ref.actor.entropy_coeff=0 \
actor_rollout_ref.actor.strategy=fsdp2 \
actor_rollout_ref.model.enable_gradient_checkpointing=False \
actor_rollout_ref.actor.fsdp_config.param_offload=True \
actor_rollout_ref.actor.fsdp_config.optimizer_offload=True \
actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=40 \
actor_rollout_ref.rollout.tensor_model_parallel_size=2 \
actor_rollout_ref.rollout.name=vllm \
actor_rollout_ref.rollout.gpu_memory_utilization=0.6 \
actor_rollout_ref.rollout.n=5 \
actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=40 \
actor_rollout_ref.ref.fsdp_config.param_offload=True \
actor_rollout_ref.ref.strategy=fsdp2 \
algorithm.use_kl_in_reward=False \
trainer.critic_warmup=0 \
trainer.logger=['console','tensorboard'] \
trainer.project_name='verl_grpo_example_gsm8k_record'\
trainer.experiment_name='qwen2_7b_function_rm_re'\
trainer.n_gpus_per_node=8 \
trainer.nnodes=1 \
trainer.save_freq=20 \
trainer.test_freq=5 \
trainer.total_epochs=15

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;margin-top: 0px;margin-bottom: 8px;font-size: 20px;padding-bottom: 12px;">2. 硬件适配:从单卡到超大规模集群

框架支持多维度硬件优化:

  • 计算引擎:兼容vLLM、SGLang等推理加速库,生成吞吐量提升3倍
  • 设备调度:灵活的GPU映射策略,支持训练/推理分离部署
  • 极致性能:采用FlashAttention2和Liger-kernel,显存占用降低40%

3. 工程化设计:工业级训练保障

  • 断点续训:支持训练状态全量保存,故障恢复无需重跑
  • 监控体系:集成wandb、mlflow等实验跟踪工具,实时可视化训练曲线
  • 弹性扩展:通过Ray实现资源动态调度,支持数百GPU集群

4. 多模态能力:不止于文本

verl已原生支持视觉-语言模型训练,通过Qwen2.5-VL等模型实现:

  • 图文混合指令跟随
  • 视觉推理任务优化
  • 多模态工具调用(如OCR+搜索组合)

5. 社区生态:从学术研究到产业落地

超过20个机构基于verl开展研究,包括:

  • 清华大学:多轮对话RLHF优化
  • 香港大学:代码生成领域的PPO改进
  • 微软:Agent-Lightning代理框架

快速上手:从零开始的RL训练

环境准备

# 基础依赖安装
pip install -r requirements.txt
# 如需CUDA加速
pip install -r requirements-cuda.txt

典型工作流

  1. 1.监督微调(SFT):使用HuggingFace数据集初始化模型
  2. 2.奖励模型训练:构建偏好数据训练评分模型
  3. 3.RL优化:选择合适算法进行策略迭代
  4. 4.评估部署:集成vLLM实现高效推理服务
Image

未来路线图:更开放的强化学习生态

根据官方规划,verl将在Q3重点推进:

  • 异步离线策略架构
  • 多智能体训练支持
  • 更大规模MoE模型优化
  • 强化学习与工具使用深度融合

字节跳动Seed团队表示,verl的开源不仅是技术输出,更希望推动强化学习在大模型领域的标准化。目前团队正招募RL算法与工程专家,共同完善这一生态。



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ