欢迎使用 RLinf#
欢迎使用 RLinf
面向基础模型与具身智能体的可扩展强化学习后训练框架
RLinf 是一个灵活且可扩展的开源基础架构,专为通过强化学习对基础模型进行后训练而设计。名称中的 "inf" 既代表 Infrastructure(基础架构)——新一代训练的强大支撑,也代表 Infinite(无限)——象征开放式学习与持续泛化。
快速开始
安装
示例
评测
选择你的路径#
🤖 具身智能 RL
使用 PPO 或 GRPO,在 LIBERO、ManiSkill、RoboTwin 等环境上微调 VLA 模型。
🧠 智能体 / 推理 RL
浏览 Qwen / DeepSeek 模型的智能体与推理配方。
🧩 自定义扩展
添加新的模型、环境或算法,并将其接入 RLinf。
🚀 扩展到集群
跨多 GPU 与多节点的共享式、分离式与混合式部署。
为什么选择 RLinf#
优势 |
你将获得 |
|---|---|
快 |
结合细粒度流水线的混合式相比同类框架实现 120%+ 的吞吐率提升,并支持自动在线扩缩。 |
灵活 |
在 FSDP + Hugging Face(快速原型)与 Megatron + SGLang(大规模训练)之间切换,无需修改代码。 |
可靠 |
内建 PPO、GRPO、DAPO、Reinforce++,并为具身与推理任务提供 SOTA 配方。 |