论文#
本页列出与 RLinf 相关的论文与技术报告。带详细结果与快速开始链接的页面见下方。
详细论文页#
RLinf-USER — 统一真机在线策略学习系统 arXiv:2602.07837
RLinf-VLA — VLA+RL 统一框架 arXiv:2510.06710
RLinf-Co — 基于强化学习的仿真-真实协同训练 VLA 模型 arXiv:2602.12628
RLinf — 灵活高效的大规模 RL 系统 arXiv:2509.15965
πRL — 基于流的 VLA 模型在线 RL 微调 arXiv:2510.25889
WoVR — 基于世界模型的 VLA 模型强化学习微调 arXiv:2602.13977
WideSeek-R1 — 通过多智能体强化学习探索用于广泛信息检索的宽度扩展方法 arXiv:2602.04634