扩展框架#

对于希望进行更深层次定制的高级用户,本章演示如何通过集成自定义环境和新的模型架构来扩展 RLinf。

你将学习如何:

  • 将一个 新环境 集成到 RLinf 的任务系统中

  • 添加一个使用 FSDP + HuggingFace 后端的 新模型

  • 添加一个使用 Megatron + SGLang 后端的 新模型

RLinf 支持多种模型训练后端,每种后端都有自己的初始化逻辑和执行流程。 本指南提供了逐步说明,帮助你完成以下任务:

  • 在 RLinf 中注册并加载自定义模型

  • 配置 YAML 文件以引用你的新模型或环境

  • 如果你的模型类型尚未被支持,扩展特定后端的代码

  • 调整环境封装器和接口以集成新的模拟器或 API

无论你是要训练一种新的模型架构,还是要在自定义 RL 环境中进行实验, 本节都将提供工具,帮助你直接接入 RLinf 的模块化设计。