使用与编程教程#

本节介绍 RLinf 的核心编程模型和部署模式。 您将学习基本概念——Worker、WorkerGroup、放置策略和通信机制—— 以及如何从单节点扩展到多节点集群,并灵活配置执行模式。

  • 基于 Worker 的编程接口

    介绍 Worker,即 RLinf 中的模块化执行单元。多个相似的 Worker 组成 WorkerGroup,简化分布式执行。

  • Worker 放置策略

    介绍 RLinf 如何在任务和 Worker 之间策略性地分配硬件资源, 确保在 GPU、NPU、机器人硬件和纯 CPU 节点上的高效利用。

  • 高层次编程流程概览

    整合 WorkerGroup、Placement 和 Cluster 的概念, 展示 RLinf 的完整编程流程。

  • 使用 Channel 进行通信

    介绍 Channel 抽象,用于 Worker 之间异步的生产者-消费者通信, 是实现跨 RL 阶段细粒度流水线的关键。

  • Checkpoint 转换

    讲解如何从保存的checkpoint文件转换到huggingface safetensors文件, 用于评估checkpoint性能或上传到huggingface仓库。

  • 多机 Ray 集群启动

    启动多机 Ray 集群,配置环境变量和代码同步, 并通过 Ray 集群启动 RLinf 训练任务。

  • 灵活执行模式

    涵盖 RLinf 的全部三种执行模式:共享式、分离式和混合式, 包含各模式的示例配置和编程模式。