示例库#
本节展示了 RLinf 目前支持的示例集合, 展示该框架如何应用于不同场景,并演示其在实际中的高效性。示例库会随着时间不断扩展,涵盖新的场景和任务,以展示 RLinf 的多样性和可扩展性。
具身智能场景#
具身智能场景包含SOTA模型(如pi0、pi0.5、OpenVLA-OFT)和不同模拟器(如LIBERO、ManiSkill、RoboTwin、MetaWorld)的训练示例,以及真机强化学习训练示例等。
基于ManiSkill的强化学习
ManiSkill+OpenVLA+PPO/GRPO达到SOTA训练效果
基于LIBERO的强化学习
LIBERO+OpenVLA-OFT+GRPO成功率达99%
π₀和π₀.₅模型强化学习训练
在π₀和π₀.₅上实现强化学习的效果跃升
基于Behavior的强化学习
支持Behavior+OpenVLA-OFT+PPO/GRPO训练
基于MetaWorld的强化学习
支持MetaWorld+π₀/π₀.₅+PPO/GRPO训练
基于IsaacLab的强化学习
支持IsaacLab+gr00t+PPO训练
GR00T-N1.5模型强化学习训练
支持GR00T-N1.5强化学习微调
基于CALVIN的强化学习
支持CALVIN+π₀/π₀.₅+PPO/GRPO训练
[开发中]基于RoboTwin的强化学习
RoboTwin+OpenVLA-OFT+PPO达到SOTA训练效果
[开发中]Franka真机强化学习
RLinf worker无缝对接Franka机械臂
推理场景#
强化学习是提升模型推理能力的关键手段,RLinf支持主流模型如Qwen、Qwen-next在Math等场景的强化学习训练,并达到SOTA的训练效果。
Math推理的强化学习训练
AIME24/AIME25/GPQA-diamond评测结果达到SOTA
[开发中]MoE模型强化学习训练
MoE RL训练速度相比同类工具提升xx%
[开发中]Qwen-next强化学习训练
Qwen-next强化学习训练效果达到SOTA
智能体场景#
RLinf的worker抽象、灵活的通信组件、以及对不同类型加速器的支持使RLinf天然支持智能体工作流的构建,以及智能体的训练。以下示例包含智能体工作流构建、在线强化学习训练、环境接入等示例。
代码补全在线强化学习开源版
基于RLinf+continue实现端到端在线强化学习,模型效果提升52%
[适配中]rStar2-agent强化学习
支持各组件所用资源量的灵活配置与调度
[适配中]SWE-agent
部署、推理、训练一体,高灵活性、高性能
实用系统功能#
RLinf的整体设计简洁且模块化,以Worker为抽象封装强化学习训练、智能体中的组件,提供灵活高效的通信库做组件间通信。基于这种解耦的设计,可以灵活调度Worker所使用的计算资源,也可以将Worker分配到更适配的加速器上。
[开发中]Worker(组件)间秒级热切换
秒级热切换提升训练速度50%+
[开发中]异构加速器混合训练
使用不同加速器运行的组件间灵活互通,构建训练工作流