具身智能#

本节专注于使用 RLinf 进行具身强化学习训练，涵盖支持的环境与模型、真机部署、数据管理和奖励模型工作流。

支持的模拟器、真机平台与模型
支持的模拟器（ManiSkill、LIBERO、IsaacLab 等）、真机平台（Franka、XSquare Turtle2 等）和 VLA/WAM 模型（OpenVLA、π₀、GR00T 等）概览。
真机机器人训练启动
将多台 Franka 机器人和 GPU 训练节点连接到同一 Ray 集群，配置 YAML 并启动真机 RL 训练。
云边协同训练配置
使用 EasyTier 构建云边训练环境，将云端和边缘节点连接在同一覆盖网络上，并在其上运行 RLinf。
Replay Buffer 使用教程
TrajectoryReplayBuffer 的使用方式、采样流程和存储实践。
数据采集
数据采集的配置、输出格式，以及在仿真和真机场景下的使用方法。
Reward Model 使用指南
Reward Model 完整使用指南，涵盖仿真和真机工作流：数据采集、预处理、训练、RL 推理以及带实时 reward 反馈的遥操作。