智能体场景#

RLinf的worker抽象、灵活的通信组件、以及对不同类型加速器的支持使RLinf天然支持智能体工作流的构建,以及智能体的训练。以下示例包含数学推理强化学习与智能体 AI 工作流,例如智能体工作流构建、在线强化学习训练、环境接入,以及 以推理为中心的智能体强化学习 等场景。

WideSeek-R1
通过多智能体强化学习探索用于广泛信息检索的宽度扩展方法

AgentLightning Calc-X
基于 Agent Lightning 编排智能体强化学习,RLinf 作为分布式训练后端

代码补全在线强化学习开源版
基于RLinf+continue实现端到端在线强化学习,模型效果提升52%

Search-R1强化学习
训练LLM调用搜索工具回答问题,RLinf加速训练过程55%

rStar2-agent强化学习
通过强化学习让模型学会使用Python工具进行自主推理和反思,以极低计算成本达到数学推理领域的顶尖水平

[适配中]SWE-agent
部署、推理、训练一体,高灵活性、高性能

使用 GRPO 训练 Math 推理任务
使用强化学习提升数学推理能力,在 AIME24/AIME25/GPQA-diamond 上达到 SOTA

使用 PPO 训练 Math 推理任务
使用 PPO 算法进行数学推理强化学习训练,示例配置基于 Qwen2.5-1.5B