基于模拟器的具身强化学习#

本类示例以 模拟器（基准） 为主线，展示如何在某个仿真平台上运行 RLinf —— 包括环境安装、资产路径、观测/动作空间，以及一个参考 RL 训练配方（通常为 PPO 或 GRPO + VLA 策略）。

如果你的出发点是 "我想在基准 X 上训练"，那这里就是合适的入口。若以模型为主线（pi₀、GR00T 等）请参考 VLA / WAM 模型的强化学习，真机部署请参考真机具身强化学习。如需在 AMD ROCm 或 Ascend CANN 加速器上运行 LIBERO，请参阅支持的加速器教程章节。

基于ManiSkill的强化学习
ManiSkill+OpenVLA+PPO/GRPO达到SOTA训练效果

基于 LIBERO 的强化学习
OpenVLA-OFT + PPO/GRPO 在 LIBERO 上成功率 99%，并支持更具挑战的 LIBERO-Pro / LIBERO-Plus 套件

基于Behavior的强化学习
支持Behavior+OpenVLA-OFT+PPO/GRPO训练

基于MetaWorld的强化学习
支持MetaWorld+π₀/π₀.₅+PPO/GRPO训练

基于IsaacLab的强化学习
支持IsaacLab+gr00t+PPO训练

基于CALVIN的强化学习
支持CALVIN+π₀/π₀.₅+PPO/GRPO训练

基于RoboCasa的强化学习
支持RoboCasa+π₀+GRPO训练

基于RoboTwin的强化学习
支持RoboTwin + OpenVLA-OFT/π₀/π₀.₅ + PPO/GRPO训练

基于RoboVerse的强化学习
支持RoboVerse + π₀.₅ + PPO训练

基于Franka-Sim的强化学习
支持Franka-Sim+MLP/CNN+PPO/SAC训练

基于 EmbodiChain 的强化学习
使用 EmbodiChain gym 任务进行 MLP + PPO 训练

基于 PolaRiS 仿真平台的强化学习
PolaRiS + OpenPI + PPO 训练桌面操作任务

基于 GSEnv 的 Real2Sim2Real 强化学习
支持 GSEnv + π₀.₅ + PPO 训练

基于 Genesis 的强化学习
在 Genesis 仿真平台上进行 MLP 策略训练