RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation#

概述#

RLinf 是面向基础模型后训练的灵活可扩展开源强化学习基础设施。它支持 推理 RL （如使用 GRPO 的数学推理）、具身 RL （如在仿真器中训练 VLA）等多种场景。RLinf 基于宏到微流转换（M2Flow）范式，将逻辑工作流编程与执行规划解耦，并利用弹性流水线、上下文切换和基于性能分析的调度来最大化吞吐量。评测表明，RLinf 实现了 1.07×–2.43× 的端到端训练加速：推理 RL 场景最高可达 1.7×，具身 RL 场景最高可达 2.43×。

结果#

我们在数学推理和具身 RL 工作负载上对 RLinf 进行了全面评估，涵盖四种不同规模的模型（即 Qwen2.5、Qwen3-MoE、Open-VLA、OpenVLA-OFT）、两种 RL 算法（GRPO 和 PPO）以及多种集群规模。

数学训练性能#

RLinf 在多种数学推理 RL 设置下，吞吐量始终优于最先进的 RL 系统 veRL 和 Slime，提升幅度为 1.07×∼1.70×。结果还表明，不同的 RL 设置适合不同的执行模式。

稠密模型#

吞吐量（GRPO）

耗时占比（GRPO，7B）

下图展示了 PPO 算法上的性能表现。

吞吐量（PPO）

耗时占比（PPO，7B，32 GPUs）

MoE 模型#

对于 MoE 模型，我们在 32、64 和 128 GPU 上评估了 Qwen3-30B-A3B，rollout batch size 为 1536，序列长度为 20480。下图展示了 GRPO 算法上的性能和耗时占比。

吞吐量

耗时占比（32 GPUs）

具身训练性能#

ManiSkill 和 LIBERO#

我们分别在 ManiSkill 和 LIBERO 上评估了 OpenVLA 和 OpenVLA-OFT。在 LIBERO 上，我们将 RLinf 与 SimpleVLA-RL（commit d001d，基于 veRL 构建）进行对比。在 ManiSkill 上，由于没有分布式 RL 基线，我们比较了 RLinf 的不同执行模式。训练速度以 steps/sec 报告，即环境步数总量除以迭代时间。

吞吐量

耗时占比

模型评估性能#

下表报告了使用 RLinf（及基线模型）在数学基准上训练的模型评估性能。RLinf-math 模型使用 RLinf 训练，并在 AIME 24、AIME 25 和 GPQA-diamond 上进行评估。

1.5B 模型结果#

1.5B 模型结果#
模型	AIME 24	AIME 25	GPQA-diamond	平均
DeepSeek-R1-Distill-Qwen-1.5B（基座）	28.33	24.90	27.45	26.89
DeepMath-1.5B	37.80	30.42	32.11	33.44
DeepScaleR-1.5B-Preview	40.41	30.93	27.54	32.96
AReaL-1.5B-Preview-Stage-3	40.73	31.56	28.10	33.46
AReaL-1.5B-retrain*	44.42	34.27	33.81	37.50
FastCuRL-1.5B-V3	43.65	32.49	35.00	37.05
RLinf-math-1.5B （HuggingFace）	48.44	35.63	38.46	40.84

* 使用默认设置重训 600 步。

7B 模型结果#

7B 模型结果#
模型	AIME 24	AIME 25	GPQA-diamond	平均
DeepSeek-R1-Distill-Qwen-7B（基座）	54.90	40.20	45.48	46.86
AReaL-boba-RL-7B	61.66	49.38	46.93	52.66
Skywork-OR1-7B	66.87	52.49	44.43	54.60
Polaris-7B-Preview	68.55	51.24	43.88	54.56
AceMath-RL-Nemotron-7B	67.30	55.00	45.57	55.96
RLinf-math-7B （HuggingFace）	68.33	52.19	48.18	56.23

RLinf 在数学推理任务上达到当前最优水平，在 1.5B 与 7B 规模下于 AIME 24、AIME 25、GPQA-diamond 等基准上均优于已有模型。

快速开始#

安装： 安装说明
数学（推理）训练： 快速上手 2：使用 GRPO 训练 LLM 进行 MATH 推理
具身训练： 快速上手 1：在 Maniskill3 上使用 PPO 训练 VLA 模型

引用#

@article{yu2025rlinf,
  title={RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation},
  author={Yu, Chao and Wang, Yuanqing and Guo, Zhen and Lin, Hao and Xu, Si and Zang, Hongzhi and Zhang, Quanlu and Wu, Yongji and Zhu, Chunyang and Hu, Junhao and others},
  journal={arXiv preprint arXiv:2509.15965},
  year={2025}
}