快速开始#

欢迎使用 RLinf 快速上手指南。本节将带你一步步运行 RLinf,帮助你快速了解整个框架的使用流程。

我们提供了三个简洁示例,展示 RLinf 的基本工作流程,帮助你快速开始使用:

SOTA 强化学习复现#

RLinf 提供了一整套**可复现的 SOTA 强化学习配置**,用户无需额外工程改造,只需直接运行官方脚本和配置文件,即可复现论文级或业界领先的训练效果。

在具身智能任务上,RLinf 在 LIBEROManiSkillRoboTwin 等多个基准中达到了或接近当前最优的成功率,支持 OpenVLA、OpenVLA-OFT、π₀/π₀.₅、GR00T 等多种 VLA 模型(详见 具身智能场景 中的示例库与 支持的强化学习算法 中的算法教程)。

在智能体任务(包含数学推理)上,RLinf 基于 DeepSeek-R1-Distill-Qwen 系列模型,在 AIME24 / AIME25 / GPQA-diamond 等基准上达到 SOTA 表现,同时支持诸如Search-R1与在线代码补全等单智能体与多智能体训练任务(详见 使用 GRPO 训练 Math 推理任务 )。