CLI 参考#
进入仓库根目录并激活虚拟环境后,使用 evaluations/run_eval.sh 启动评测。
方式一:显式指定 benchmark#
source .venv/bin/activate
bash evaluations/run_eval.sh <benchmark> <config_name> [hydra_overrides...]
示例:
bash evaluations/run_eval.sh libero libero_spatial_openpi_pi05_eval
bash evaluations/run_eval.sh robotwin robotwin_place_empty_cup_openvlaoft_eval
bash evaluations/run_eval.sh behavior behavior_openpi_pi05_eval
方式二:自动推断 benchmark#
配置名以 libero_、robotwin_、behavior_ 等前缀开头时,可省略 benchmark:
bash evaluations/run_eval.sh libero_spatial_openpi_pi05_eval
方式三:命令行覆盖 Hydra 参数#
bash evaluations/run_eval.sh libero libero_spatial_openpi_pi05_eval \
rollout.model.model_path=/path/to/model/RLinf-Pi05-SFT \
env.eval.total_num_envs=64 \
runner.ckpt_path=/path/to/checkpoint.pt
支持的 benchmark 前缀#
run_eval.sh 根据配置名前缀自动推断 benchmark:
libero_*→ liberorobotwin_*→ robotwinbehavior_*→ behaviorrealworld_*→ realworldmaniskill_*→ maniskillpolaris_*→ polaris
配置回退#
若 evaluations/<benchmark>/<config>.yaml 不存在,脚本会回退到 examples/embodiment/config/ 下同名配置。这在复用训练 YAML 做评测时非常方便。
各 benchmark 的完整启动示例见对应指南:
直接调用 Python#
也可直接调用评测主程序:
python evaluations/eval_embodied_agent.py \
--config-path evaluations/libero/ \
--config-name libero_spatial_openpi_pi05_eval \
rollout.model.model_path=/path/to/model
run_eval.sh 在此基础上封装了路径设置、日志目录与环境变量导出。