欢迎使用 RLinf#

欢迎使用 RLinf

面向基础模型与具身智能体的可扩展强化学习后训练框架

RLinf 是一个灵活且可扩展的开源基础架构，专为通过强化学习对基础模型进行后训练而设计。名称中的 "inf" 既代表 Infrastructure（基础架构）——新一代训练的强大支撑，也代表 Infinite（无限）——象征开放式学习与持续泛化。

快速开始

安装

示例

评测

🤖 具身智能 RL

使用 PPO 或 GRPO，在 LIBERO、ManiSkill、RoboTwin 等环境上微调 VLA 模型。

🧠 智能体 / 推理 RL

浏览 Qwen / DeepSeek 模型的智能体与推理配方。

🧩 自定义扩展

添加新的模型、环境或算法，并将其接入 RLinf。

🚀 扩展到集群

跨多 GPU 与多节点的共享式、分离式与混合式部署。

优势	你将获得
快	结合细粒度流水线的混合式相比同类框架实现 120%+ 的吞吐率提升，并支持自动在线扩缩。
灵活	在 FSDP + Hugging Face（快速原型）与 Megatron + SGLang（大规模训练）之间切换，无需修改代码。
可靠	内建 PPO、GRPO、DAPO、Reinforce++，并为具身与推理任务提供 SOTA 配方。