概览#
RLinf 提供统一的具身智能评测入口,支持在仿真或真机环境中并行 rollout,并输出任务级成功率等指标。
目录结构#
所有评测相关代码与配置位于仓库根目录的 evaluations/ 下:
evaluations/
├── eval_embodied_agent.py # 评测主程序
├── run_eval.sh # 一键启动脚本
├── libero/ # LIBERO 评测配置
├── robotwin/ # RoboTwin 评测配置
├── behavior/ # BEHAVIOR-1K 评测配置
├── maniskill/ # ManiSkill OOD 评测配置
├── realworld/ # 真机评测配置
└── polaris/ # PolaRiS 评测配置
评测架构#
评测流程由 EmbodiedEvalRunner 驱动:Env Worker 与 Rollout Worker 通过 Channel 交互,在 env.eval 配置下完成并行评测。终端与日志中会输出 eval/success_once、eval/return 等指标。
典型数据流:
配置加载 — Hydra 从
evaluations/<benchmark>/读取 YAML,并通过defaults引用examples/embodiment/config/下的环境与模型 preset。Worker 启动 — 根据
cluster.component_placement在 GPU 上启动 Env Worker 与 Rollout Worker。并行 Rollout — Env Worker 重置环境并返回观测;Rollout Worker 根据模型生成动作;循环直至 episode 结束。
指标汇总 — 统计
success_once、return等任务级指标并写入日志。
下一步#
安装环境:环境安装
5 分钟快速体验:快速体验
按 benchmark 深入:Benchmark 指南