具身智能#
本节专注于使用 RLinf 进行具身强化学习训练,涵盖支持的环境与模型、 真机部署、数据管理和奖励模型工作流。
- 支持的模拟器、真机平台与模型
支持的模拟器(ManiSkill、LIBERO、IsaacLab 等)、 真机平台(Franka、XSquare Turtle2 等)和 VLA/WAM 模型(OpenVLA、π₀、GR00T 等)概览。
- 真机机器人训练启动
将多台 Franka 机器人和 GPU 训练节点连接到同一 Ray 集群, 配置 YAML 并启动真机 RL 训练。
- 云边协同训练配置
使用 EasyTier 构建云边训练环境,将云端和边缘节点连接在 同一覆盖网络上,并在其上运行 RLinf。
- Replay Buffer 使用教程
TrajectoryReplayBuffer 的使用方式、采样流程和存储实践。
- 数据采集
数据采集的配置、输出格式,以及在仿真和真机场景下的使用方法。
- Reward Model 使用指南
Reward Model 完整使用指南,涵盖仿真和真机工作流: 数据采集、预处理、训练、RL 推理以及带实时 reward 反馈的遥操作。