为什么选择 RLinf#
RLinf 专为大规模通过强化学习对基础模型进行后训练而构建。本页汇总了框架背后的设计理念、性能数据与 SOTA 复现配方——当你想了解“为什么”而非“怎么做”时,请阅读本页。
RLinf 的独特之处#
宏观到微观流程(M2Flow): 一种新范式,通过微观级的执行流程完成宏观级的逻辑流程,将逻辑工作流构建(可编程)与物理通信调度(高效执行)解耦。
灵活的执行模式:
共享式 — 所有任务共享全部 GPU。
分离式 — 支持细粒度流水线。
混合式 — 可定制地组合共享式与分离式两种模式。
自动调度:
动态调度 — 即时调度资源分配,最大化资源利用率。
静态调度 — 根据训练任务自动选择最合适的执行模式,无需手动分配资源。
具身智能支持:
快速适配主流 VLA 模型:OpenVLA、OpenVLA-OFT、π₀、GR00T-N1.5。
通过标准化 RL 接口支持主流 CPU 与 GPU 模拟器:ManiSkill3、LIBERO、IsaacLab。
支持 π₀ 模型族首次基于 flow-matching 动作专家的强化学习微调。
性能#
结合细粒度流水线的混合式 相比同类框架实现 120%+ 的吞吐率提升。
自动在线扩缩 动态扩展训练资源,GPU 切换只需数秒,在保持 RL 算法 on-policy 特性的同时进一步提升效率 20–40%。
灵活且易用#
多后端集成,在统一接口背后无需修改代码即可切换:
FSDP + Hugging Face — 快速适配新模型与算法,适合初学者与快速原型开发。
Megatron + SGLang — 面向大规模训练优化,为高负载场景提供极致效率。
通过异步通信通道实现自适应通信。
内建多种强化学习方法,包括 PPO、GRPO、DAPO、Reinforce++ 等。
SOTA 强化学习复现#
RLinf 提供开箱即用的端到端配方,可复现或达到 业界领先(SOTA)的 RL 结果——直接运行官方配置与脚本即可获得论文级数据,无需额外工程改造。