示例库#

本节展示了 RLinf 目前支持的示例集合, 展示该框架如何应用于不同场景,并演示其在实际中的高效性。示例库会随着时间不断扩展,涵盖新的场景和任务,以展示 RLinf 的多样性和可扩展性。

具身智能场景#

具身智能场景包含SOTA模型(如pi0、pi0.5、OpenVLA-OFT)和不同模拟器(如LIBERO、ManiSkill、RoboTwin、MetaWorld)的训练示例,以及真机强化学习训练示例等。

基于ManiSkill的强化学习
ManiSkill+OpenVLA+PPO/GRPO达到SOTA训练效果

基于LIBERO的强化学习
LIBERO+OpenVLA-OFT+GRPO成功率达99%

π₀和π₀.₅模型强化学习训练
在π₀和π₀.₅上实现强化学习的效果跃升

基于Behavior的强化学习
支持Behavior+OpenVLA-OFT+PPO/GRPO训练

基于MetaWorld的强化学习
支持MetaWorld+π₀/π₀.₅+PPO/GRPO训练

基于IsaacLab的强化学习
支持IsaacLab+gr00t+PPO训练

GR00T-N1.5模型强化学习训练
支持GR00T-N1.5强化学习微调

基于CALVIN的强化学习
支持CALVIN+π₀/π₀.₅+PPO/GRPO训练

[开发中]基于RoboTwin的强化学习
RoboTwin+OpenVLA-OFT+PPO达到SOTA训练效果

[开发中]Franka真机强化学习
RLinf worker无缝对接Franka机械臂

推理场景#

强化学习是提升模型推理能力的关键手段,RLinf支持主流模型如Qwen、Qwen-next在Math等场景的强化学习训练,并达到SOTA的训练效果。

Math推理的强化学习训练
AIME24/AIME25/GPQA-diamond评测结果达到SOTA

[开发中]MoE模型强化学习训练
MoE RL训练速度相比同类工具提升xx%

[开发中]Qwen-next强化学习训练
Qwen-next强化学习训练效果达到SOTA

智能体场景#

RLinf的worker抽象、灵活的通信组件、以及对不同类型加速器的支持使RLinf天然支持智能体工作流的构建,以及智能体的训练。以下示例包含智能体工作流构建、在线强化学习训练、环境接入等示例。

代码补全在线强化学习开源版
基于RLinf+continue实现端到端在线强化学习,模型效果提升52%

[适配中]rStar2-agent强化学习
支持各组件所用资源量的灵活配置与调度

[适配中]SWE-agent
部署、推理、训练一体,高灵活性、高性能

实用系统功能#

RLinf的整体设计简洁且模块化,以Worker为抽象封装强化学习训练、智能体中的组件,提供灵活高效的通信库做组件间通信。基于这种解耦的设计,可以灵活调度Worker所使用的计算资源,也可以将Worker分配到更适配的加速器上。

[开发中]Worker(组件)间秒级热切换
秒级热切换提升训练速度50%+

[开发中]异构加速器混合训练
使用不同加速器运行的组件间灵活互通,构建训练工作流