πRL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models#

概述#

πRL 在 RLinf 框架内为基于流的视觉-语言-动作（VLA）模型 π₀ 和 π₀.₅ 提供在线强化学习微调。通过将 PPO/GRPO 与流匹配策略相结合,该方法使少样本 SFT 模型能够通过环境反馈实现强大的操作性能。它支持 LIBERO、ManiSkill3、MetaWorld 和 CALVIN 基准测试,通过强化学习联合优化视觉理解、语言理解和连续动作生成。

结果#

π₀ 模型#

π₀ 模型评估结果#
环境	任务	SFT	Flow-SDE	Flow-Noise
LIBERO	Spatial, Object, Goal	SFT	—	—
LIBERO	Long	SFT	—	—
ManiSkill3	Multi-task	38.4%	78.8%	77.8%
MetaWorld	MT50	50.8%	78.1%	85.8%
CALVIN	ABC-D	57.5%	61.7%	59.9%

π₀.₅ 模型#

π₀.₅ 模型评估结果#
环境	任务	SFT	Flow-SDE	Flow-Noise
LIBERO	Spatial, Object, Goal, Long	SFT	—	—
ManiSkill3	Multi-task	40.1%	90.9%	89.7%
MetaWorld	MT50	43.8%	70.7%	66.1%
CALVIN	ABC-D	61.3%	87.0%	84.5%

快速开始#

完整指南： π0和π0.5模型强化学习训练

运行： bash examples/embodiment/run_embodiment.sh <CONFIG_NAME> （配置文件位于 examples/embodiment/config/）

模型选择：

π₀： 名称中**不含** _pi05 的配置
π₀.₅： 名称中**包含** _pi05 的配置（例如 *_openpi_pi05.yaml）

基准测试：

LIBERO： 基于LIBERO评测平台的强化学习训练
ManiSkill3： 基于ManiSkill评测平台的强化学习训练
MetaWorld： 基于MetaWorld评测平台的强化学习训练
CALVIN： 基于CALVIN评测平台的强化学习训练
Real2Sim2Real (GSEnv)： 基于Real2Sim2Real的强化学习训练

引用#

@article{chen2025pi_rl,
  title={$$\backslash$pi\_$\backslash$texttt $\{$RL$\}$ $: Online RL Fine-tuning for Flow-based Vision-Language-Action Models},
  author={Chen, Kang and Liu, Zhihao and Zhang, Tonghe and Guo, Zhen and Xu, Si and Lin, Hao and Zang, Hongzhi and Li, Xiang and Zhang, Quanlu and Yu, Zhaofei and others},
  journal={arXiv preprint arXiv:2510.25889},
  year={2025}
}