基于 RoboVerse 的强化学习训练#

https://roboverseorg.github.io/static/images/teaser.jpg — RoboVerse（图片来源：RoboVerse）。#

RoboVerse 是面向机器人操作任务的仿真套件，支持多个后端。你将使用 RLinf 在 RoboVerse 厨房操作任务上，通过 PPO 微调 OpenPI π₀.₅ 策略。

概览#

在带有两个 RGB 视角和稀疏奖励的 RoboVerse 任务上微调 OpenPI π₀.₅。

模型

π₀.₅

算法

PPO

任务

Bowl on cabinet

硬件

1 节点 · 4 GPUs

你将完成： 安装 → 下载资源 + 模型 → 启动 run_embodiment.sh → 观察 env/success_once。

前置条件： 安装 · RoboVerse 资源 · SFT 检查点。

任务#

任务	描述
`libero_90.kitchen_scene1_put_the_black_bowl_on_top_of_the_cabinet`	在厨房场景中将黑色碗放到柜子上方。

观测与动作#

字段	规格
观测	224×224 主相机 RGB、腕部相机 RGB，以及 8 维本体状态。
动作	7 维连续动作：3D 末端执行器位置、3D 旋转向量和夹爪。
奖励	稀疏任务完成奖励。
提示词	RoboVerse 任务的自然语言指令。

安装#

首先，克隆 RLinf 仓库：

# 为提高国内下载速度，可以使用镜像：
# git clone https://ghfast.top/github.com/RLinf/RLinf.git
git clone https://github.com/RLinf/RLinf.git
cd RLinf

然后，使用下列两种方式之一准备依赖：预构建的 Docker 镜像（推荐）或自定义环境。通用的安装流程（前置依赖、GPU 驱动、镜像内置的 switch_env 工具、镜像加速、常见问题排查）在安装说明中统一说明；本方案中的命令仅在 Docker 镜像标签和 --env 取值上有所不同。

Docker 镜像

docker run -it --rm --gpus all \
   --shm-size 32g \
   --network host \
   --name rlinf \
   -v .:/workspace/RLinf \
   rlinf/rlinf:agentic-rlinf0.3-roboverse

# 国内用户可使用：
# docker.1ms.run/rlinf/rlinf:agentic-rlinf0.3-roboverse

在镜像中切换到 OpenPI 虚拟环境：

source switch_env openpi

自定义环境

安装 RoboVerse 与 OpenPI 依赖：

# 国内用户可添加 --use-mirror。
bash requirements/install.sh embodied --model openpi --env roboverse
source .venv/bin/activate

下载默认 RoboVerse 资源：

cd /path/to/RLinf
# export HF_ENDPOINT=https://hf-mirror.com
hf download --repo-type dataset manity/roboverse_data --local-dir .

下载模型#

下载参考配置使用的 OpenPI π₀.₅ 检查点：

cd /path/to/save/model

git lfs install
git clone https://huggingface.co/RLinf/RLinf-Pi05-LIBERO-SFT

# 或使用 huggingface-hub：
# export HF_ENDPOINT=https://hf-mirror.com
pip install huggingface-hub
hf download RLinf/RLinf-Pi05-LIBERO-SFT --local-dir RLinf-Pi05-LIBERO-SFT

下载完成后，在配置 YAML 中指向该检查点——为 rollout 与 actor 两处模型设置相同的路径：

rollout:
   model:
      model_path: /path/to/downloaded-checkpoint
actor:
   model:
      model_path: /path/to/downloaded-checkpoint

运行#

启动 RoboVerse 配方：

配方	配置	命令后缀
OpenPI π₀.₅ + PPO	`examples/embodiment/config/roboverse_ppo_openpi_pi05.yaml`	`roboverse_ppo_openpi_pi05`

bash examples/embodiment/run_embodiment.sh roboverse_ppo_openpi_pi05

这条命令会：

使用 RoboVerse Hydra 配置启动 embodied 训练入口。
为 actor、rollout 和 RoboVerse env 组件创建 Ray worker。
运行 PPO rollout，计算稀疏任务奖励，并更新 OpenPI 策略。

独立评测请使用统一的 Evaluation CLI，通过配置回退机制复用相同后缀 roboverse_ppo_openpi_pi05。

备注

默认配置将 actor 与 rollout 放在 GPU 0-1，将 env worker 放在 GPU 2-3。请根据硬件调整 cluster.component_placement、env.train.total_num_envs 和 actor.global_batch_size。

可视化与结果#

在 RLinf 仓库根目录启动 TensorBoard：

tensorboard --logdir ../results --port 6006

关键指标是 env/success_once。完整指标说明见训练指标。

如需保存 rollout 视频，请在环境配置中启用 video：

env:
  eval:
    video_cfg:
      save_video: True
      video_base_dir: ${runner.logger.log_path}/video/eval

如需启用 W&B 或 SwanLab，请添加 logger backend：

runner:
  logger:
    logger_backends: ["tensorboard", "wandb"]  # or swanlab

备注

本页面暂未发布固定的 RoboVerse 成功率表。请使用 env/success_once 和评估视频比较运行结果。