评测#
RLinf 提供统一的具身智能评测入口,支持在仿真或真机环境中并行 rollout,并输出任务级成功率等指标。本模块介绍如何安装环境、快速跑通第一个评测,以及在各 benchmark 上完成完整评测流程。
支持的 Benchmark
下表列出 evaluations/ 目录中已提供示例配置、且可通过 run_eval.sh 直接启动的 benchmark。
Benchmark |
任务 / 环境配置 |
示例配置文件 |
|---|---|---|
RealWorld |
|
|
BEHAVIOR-1K |
|
|
LIBERO |
|
|
ManiSkill OOD |
|
|
PolaRiS |
|
|
RoboTwin |
|
|
LIBERO 变体: 标准 LIBERO、LIBERO-PRO、LIBERO-PLUS 均支持,通过环境变量切换(见 LIBERO 评测)。
配置回退: 若 evaluations/<benchmark>/<config>.yaml 不存在,run_eval.sh 会自动回退到 examples/embodiment/config/ 下同名配置,便于复用训练配置做评测。
快速入门#
Benchmark 指南#
按 benchmark 组织的完整评测流程(环境准备 → 配置 → 启动 → 查看结果):
真机评测 — Franka 真机评测与部署
BEHAVIOR-1K 评测 — BEHAVIOR-1K
LIBERO 评测 — LIBERO / LIBERO-PRO / LIBERO-PLUS
ManiSkill OOD 评测 — ManiSkill 分布外泛化评测
PolaRiS 评测 — PolaRiS 桌面操作
RoboTwin 评测 — RoboTwin 双臂操作
参考#
相关文档#
各 benchmark 的环境搭建与训练示例:基于模拟器的具身强化学习
环境安装详情:安装说明
数学推理 LLM 评测(非具身):请参考 LLMEvalKit
模型专属 standalone 评测脚本(非统一入口):
toolkits/standalone_eval_scripts/