欢迎使用 RLinf#

欢迎使用 RLinf

面向基础模型与具身智能体的可扩展强化学习后训练框架

RLinf 是一个灵活且可扩展的开源基础架构,专为通过强化学习对基础模型进行后训练而设计。名称中的 "inf" 既代表 Infrastructure(基础架构)——新一代训练的强大支撑,也代表 Infinite(无限)——象征开放式学习与持续泛化。

快速开始
快速开始
安装
安装说明
示例
示例库
评测
评测

选择你的路径#

🤖 具身智能 RL

使用 PPO 或 GRPO,在 LIBERO、ManiSkill、RoboTwin 等环境上微调 VLA 模型。

快速上手
🧠 智能体 / 推理 RL

浏览 Qwen / DeepSeek 模型的智能体与推理配方。

智能体场景
🧩 自定义扩展

添加新的模型、环境或算法,并将其接入 RLinf。

扩展
🚀 扩展到集群

跨多 GPU 与多节点的共享式、分离式与混合式部署。

启动与扩展

为什么选择 RLinf#

优势

你将获得

结合细粒度流水线的混合式相比同类框架实现 120%+ 的吞吐率提升,并支持自动在线扩缩。

灵活

在 FSDP + Hugging Face(快速原型)与 Megatron + SGLang(大规模训练)之间切换,无需修改代码。

可靠

内建 PPO、GRPO、DAPO、Reinforce++,并为具身与推理任务提供 SOTA 配方。