跳转至主要内容
回到顶部
Ctrl
+
K
🤖
Ask AI
RLinf
Ctrl
+
K
Choose version
中文
English
中文
GitHub
快速开始
环境要求
安装说明
快速上手
速查表
示例
模拟器
ManiSkill
LIBERO
Behavior
MetaWorld
IsaacLab
CALVIN
RoboCasa
RoboTwin
RoboVerse
Franka-Sim
EmbodiChain
PolaRiS
GSEnv
Genesis
真机
Franka
Reward Model
ZED + Robotiq
GELLO
Dual-Arm
Dexterous Hand
Pi0 SFT
HG-DAgger
GimArm
XSquare Turtle2
DOS-W1
模型
MLP
π₀ / π₀.₅
GR00T
Lingbot-VLA
Dexbotic
StarVLA
ABot-M0
OpenSora
Wan
SFT
OpenPI
DreamZero
VLM
算法
SAC-Flow
DSRL
DAgger
RECAP
Co-Training
IQL (D4RL)
智能体
WideSeek-R1
工具配置
WideSeek-R1 训练
WideSeek-R1 评测
AgentLightning
Coding Online RL
Search-R1
rStar2
Math GRPO
Math PPO
系统
FUSCO高性能MoE通信库
评测
快速入门
概览
环境安装
快速体验
Benchmark 指南
真机评测
BEHAVIOR-1K 评测
LIBERO 评测
ManiSkill OOD 评测
PolaRiS 评测
RoboTwin 评测
参考
配置参考
CLI 参考
支持的模型
日志与结果
指南
配置
基础配置
具身智能配置
智能体配置
日志
启动与扩展
多节点训练
异构集群
云边协同
真机机器人
数据与 Checkpoint
数据采集
Checkpoint 转换
恢复训练
性能
自动 Placement
动态调度
Profiling
5D 并行
LoRA
硬件后端
AMD ROCm
Ascend CANN
SGLang 版本切换
智能体工作流
智能体指南
概念
执行模型
RLinf 执行流程
M2Flow 编程流程
Worker 与 WorkerGroup
Cluster
Channel
集合通信
调度模型
Placement
执行模式
Replay Buffer
参考
API
Worker 接口
Placement 接口
Cluster 接口
Channel 接口
Actor 接口
Rollout 接口
Environment 接口
Data 接口
Embodied Data 接口
Replay Buffer
算法
PPO
GRPO
DAPO
Reinforce++
SAC
CrossQ
RLPD
IQL
Async PPO
配置
训练配置
训练指标
扩展
扩展概览
新环境
FSDP 新模型
Megatron 新模型
新 SFT 模型
高级集成
Megatron-Bridge
权重同步
奖励模型流程
资源
为什么选择 RLinf
博客
与 VeRL 的对比
智能体落地“最后一公里”初探之Cursor在线强化学习
为具身智能的“ImageNet 时刻”按下加速键:RLinf 为 BEHAVIOR 带来 25 倍系统优化
论文
RLinf-USER: Unified System for Real-world Online Policy Learning
RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training
Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models
RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation
πRL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL
WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
发布说明
FAQ
指南
智能体工作流
智能体工作流
#
当你运行智能体或推理工作负载,而不是具身 RL 任务时,使用这个指南。
指南
内容
智能体指南
智能体任务的操作流程。