RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation#
论文: arXiv:2509.15965
概述#
|
RLinf 是面向基础模型后训练的灵活可扩展开源强化学习基础设施。它支持 推理 RL (如使用 GRPO 的数学推理)、具身 RL (如在仿真器中训练 VLA)等多种场景。RLinf 基于宏到微流转换(M2Flow)范式,将逻辑工作流编程与执行规划解耦,并利用弹性流水线、上下文切换和基于性能分析的调度来最大化吞吐量。评测表明,RLinf 实现了 1.07×–2.43× 的端到端训练加速:推理 RL 场景最高可达 1.7×,具身 RL 场景最高可达 2.43×。
结果#
我们在数学推理和具身 RL 工作负载上对 RLinf 进行了全面评估,涵盖四种不同规模的模型(即 Qwen2.5、Qwen3-MoE、Open-VLA、OpenVLA-OFT)、两种 RL 算法(GRPO 和 PPO)以及多种集群规模。
数学训练性能#
RLinf 在多种数学推理 RL 设置下,吞吐量始终优于最先进的 RL 系统 veRL 和 Slime,提升幅度为 1.07×∼1.70×。结果还表明,不同的 RL 设置适合不同的执行模式。
稠密模型#
吞吐量(GRPO) |
耗时占比(GRPO,7B) |
下图展示了 PPO 算法上的性能表现。
吞吐量(PPO) |
耗时占比(PPO,7B,32 GPUs) |
MoE 模型#
对于 MoE 模型,我们在 32、64 和 128 GPU 上评估了 Qwen3-30B-A3B,rollout batch size 为 1536,序列长度为 20480。下图展示了 GRPO 算法上的性能和耗时占比。
吞吐量 |
耗时占比(32 GPUs) |
具身训练性能#
ManiSkill 和 LIBERO#
我们分别在 ManiSkill 和 LIBERO 上评估了 OpenVLA 和 OpenVLA-OFT。在 LIBERO 上,我们将 RLinf 与 SimpleVLA-RL(commit d001d,基于 veRL 构建)进行对比。在 ManiSkill 上,由于没有分布式 RL 基线,我们比较了 RLinf 的不同执行模式。训练速度以 steps/sec 报告,即环境步数总量除以迭代时间。
吞吐量 |
耗时占比 |
模型评估性能#
下表报告了使用 RLinf(及基线模型)在数学基准上训练的模型评估性能。RLinf-math 模型使用 RLinf 训练,并在 AIME 24、AIME 25 和 GPQA-diamond 上进行评估。
1.5B 模型结果#
模型 |
AIME 24 |
AIME 25 |
GPQA-diamond |
平均 |
|---|---|---|---|---|
28.33 |
24.90 |
27.45 |
26.89 |
|
37.80 |
30.42 |
32.11 |
33.44 |
|
40.41 |
30.93 |
27.54 |
32.96 |
|
40.73 |
31.56 |
28.10 |
33.46 |
|
AReaL-1.5B-retrain* |
44.42 |
34.27 |
33.81 |
37.50 |
43.65 |
32.49 |
35.00 |
37.05 |
|
RLinf-math-1.5B (HuggingFace) |
48.44 |
35.63 |
38.46 |
40.84 |
* 使用默认设置重训 600 步。
7B 模型结果#
模型 |
AIME 24 |
AIME 25 |
GPQA-diamond |
平均 |
|---|---|---|---|---|
54.90 |
40.20 |
45.48 |
46.86 |
|
61.66 |
49.38 |
46.93 |
52.66 |
|
66.87 |
52.49 |
44.43 |
54.60 |
|
68.55 |
51.24 |
43.88 |
54.56 |
|
67.30 |
55.00 |
45.57 |
55.96 |
|
RLinf-math-7B (HuggingFace) |
68.33 |
52.19 |
48.18 |
56.23 |
RLinf 在数学推理任务上达到当前最优水平,在 1.5B 与 7B 规模下于 AIME 24、AIME 25、GPQA-diamond 等基准上均优于已有模型。
快速开始#
安装: 安装说明
数学(推理)训练: 快速上手 2:使用 GRPO 训练 LLM 进行 MATH 推理
引用#
@article{yu2025rlinf,
title={RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation},
author={Yu, Chao and Wang, Yuanqing and Guo, Zhen and Lin, Hao and Xu, Si and Zang, Hongzhi and Zhang, Quanlu and Wu, Yongji and Zhu, Chunyang and Hu, Junhao and others},
journal={arXiv preprint arXiv:2509.15965},
year={2025}
}