Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models#

概述#

所提出的两阶段仿真-真实协同训练框架概览。我们建立数字孪生设置，尽管存在视觉差异，\(T_{\text{sim}}\) 仍可作为 \(T_{\text{real}}\) 的数字近亲。在 阶段 I 中，我们将真实与仿真数据按比例 \(\alpha\) 混合进行监督训练以初始化 VLA 策略。这一步可快速注入真实世界知识，并为后续仿真交互做好准备。在 阶段 II 中，我们在仿真器中进行 RL 微调以探索并提升性能，同时引入真实世界 SFT 损失作为正则项，防止模型遗忘真实世界行为。

结果#

主要结果#

不同训练范式下的真实世界成功率对比#
VLA 模型	实验设置	Pick and Place	Push Cube	Open Drawer	Close Drawer	平均
OpenVLA	仅真实数据训练	6.3 ± 0.0	20.0 ± 13.3	0.0 ± 0.0	10.0 ± 10.0	16.5 ± 13.3
	SFT 协同训练	23.4 ± 4.7	51.7 ± 5.0	0.0 ± 0.0	85.0 ± 5.0	40.0 ± 3.7
	RL-Co（我们的方法）	58.8 ± 10.0	68.3 ± 11.7	35.0 ± 15.0	95.0 ± 5.0	64.0 ± 0.7
π₀.₅	仅真实数据训练	71.9 ± 9.4	0.0 ± 0.0	0.0 ± 0.0	35.0 ± 15.0	26.7 ± 1.4
	SFT 协同训练	68.8 ± 9.4	10.0 ± 3.3	10.0 ± 0.0	95.0 ± 5.0	45.9 ± 4.4
	RL-Co（我们的方法）	81.3 ± 9.4	18.4 ± 1.7	65.0 ± 5.0	100.0 ± 0.0	66.2 ± 4.0

消融实验#

仿真 SFT 初始化消融实验。我们报告了在是否使用仿真 SFT 初始化条件下模型在 RL 训练过程中的仿真成功率。每次 RL 训练均使用三个独立随机种子，结果以平均成功率展示，阴影区域表示标准差。

数据效率#

真实世界演示数量的影响。我们改变 Open Drawer 任务中的真实世界演示数量，并使用 \(\pi_{0.5}\) 模型评估所有训练范式。性能以成功率衡量，阴影区域表示标准差。

快速开始#

说明： 基于RL的仿真-真机协同训练

引用#

@article{shi2026rlinf,
  title={Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models},
  author={Shi, Liangzhi and Chen, Shuaihang and Gao, Feng and Chen, Yinuo and Chen, Kang and Zhang, Tonghe and Zhang, Hongzhi and Zhang, Weinan and Yu, Chao and Wang, Yu},
  journal={arXiv preprint arXiv:2602.12628},
  year={2026}
}