论文# 本页列出与 RLinf 相关的论文与技术报告。带详细结果与快速开始链接的页面见下方。 详细论文页# 论文 主题 预印本 RLinf-USER 统一真机在线策略学习系统。 arXiv:2602.07837 RLinf-VLA VLA+RL 统一框架。 arXiv:2510.06710 RLinf-Co 基于强化学习的仿真-真实协同训练 VLA 模型。 arXiv:2602.12628 RLinf 灵活高效的大规模 RL 系统。 arXiv:2509.15965 πRL 基于流的 VLA 模型在线 RL 微调。 arXiv:2510.25889 WoVR 基于世界模型的 VLA 模型强化学习微调。 arXiv:2602.13977 WideSeek-R1 通过多智能体强化学习探索用于广泛信息检索的宽度扩展方法。 arXiv:2602.04634