论文#

本页列出与 RLinf 相关的论文与技术报告。带详细结果与快速开始链接的页面见下方。

详细论文页#

论文

主题

预印本

RLinf-USER

统一真机在线策略学习系统。

arXiv:2602.07837

RLinf-VLA

VLA+RL 统一框架。

arXiv:2510.06710

RLinf-Co

基于强化学习的仿真-真实协同训练 VLA 模型。

arXiv:2602.12628

RLinf

灵活高效的大规模 RL 系统。

arXiv:2509.15965

πRL

基于流的 VLA 模型在线 RL 微调。

arXiv:2510.25889

WoVR

基于世界模型的 VLA 模型强化学习微调。

arXiv:2602.13977

WideSeek-R1

通过多智能体强化学习探索用于广泛信息检索的宽度扩展方法。

arXiv:2602.04634