πRL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models#
论文: arXiv:2510.25889
概述#
πRL 在 RLinf 框架内为基于流的视觉-语言-动作(VLA)模型 π₀ 和 π₀.₅ 提供在线强化学习微调。通过将 PPO/GRPO 与流匹配策略相结合,该方法使少样本 SFT 模型能够通过环境反馈实现强大的操作性能。它支持 LIBERO、ManiSkill3、MetaWorld 和 CALVIN 基准测试,通过强化学习联合优化视觉理解、语言理解和连续动作生成。
结果#
π₀ 模型#
π₀.₅ 模型#
快速开始#
完整指南: π0和π0.5模型强化学习训练
运行: bash examples/embodiment/run_embodiment.sh <CONFIG_NAME> (配置文件位于 examples/embodiment/config/)
模型选择:
π₀: 名称中**不含**
_pi05的配置π₀.₅: 名称中**包含**
_pi05的配置(例如*_openpi_pi05.yaml)
基准测试:
LIBERO: 基于LIBERO评测平台的强化学习训练
ManiSkill3: 基于ManiSkill评测平台的强化学习训练
MetaWorld: 基于MetaWorld评测平台的强化学习训练
CALVIN: 基于CALVIN评测平台的强化学习训练
Real2Sim2Real (GSEnv): 基于Real2Sim2Real的强化学习训练
引用#
@article{chen2025pi_rl,
title={$$\backslash$pi\_$\backslash$texttt $\{$RL$\}$ $: Online RL Fine-tuning for Flow-based Vision-Language-Action Models},
author={Chen, Kang and Liu, Zhihao and Zhang, Tonghe and Guo, Zhen and Xu, Si and Lin, Hao and Zang, Hongzhi and Li, Xiang and Zhang, Quanlu and Yu, Zhaofei and others},
journal={arXiv preprint arXiv:2510.25889},
year={2025}
}