智能体强化学习#

本节涵盖使用 RLinf 进行智能体强化学习,包括推理 RL 训练、 多智能体系统和工具集成。

关于端到端示例,请参见 智能体示例 库, 其中包括推理、在线编码 RL、Search-R1、rStar2 和 WideSeek-R1 工作流。

备注

本节目录尚在建设中,相关教程内容正在开发。 目前请参见 智能体示例 库, 其中包含推理、在线编码 RL、Search-R1、rStar2 和 WideSeek-R1 等端到端工作流。