论文#

本页列出与 RLinf 相关的论文与技术报告。带详细结果与快速开始链接的页面见下方。

详细论文页#

论文	主题	预印本
RLinf-USER	统一真机在线策略学习系统。	arXiv:2602.07837
RLinf-VLA	VLA+RL 统一框架。	arXiv:2510.06710
RLinf-Co	基于强化学习的仿真-真实协同训练 VLA 模型。	arXiv:2602.12628
RLinf	灵活高效的大规模 RL 系统。	arXiv:2509.15965
πRL	基于流的 VLA 模型在线 RL 微调。	arXiv:2510.25889
WoVR	基于世界模型的 VLA 模型强化学习微调。	arXiv:2602.13977
WideSeek-R1	通过多智能体强化学习探索用于广泛信息检索的宽度扩展方法。	arXiv:2602.04634