使用与编程教程#
本节介绍 RLinf 的核心编程模型和部署模式。 您将学习基本概念——Worker、WorkerGroup、放置策略和通信机制—— 以及如何从单节点扩展到多节点集群,并灵活配置执行模式。
- 基于 Worker 的编程接口
介绍 Worker,即 RLinf 中的模块化执行单元。多个相似的 Worker 组成 WorkerGroup,简化分布式执行。
- Worker 放置策略
介绍 RLinf 如何在任务和 Worker 之间策略性地分配硬件资源, 确保在 GPU、NPU、机器人硬件和纯 CPU 节点上的高效利用。
- 高层次编程流程概览
整合 WorkerGroup、Placement 和 Cluster 的概念, 展示 RLinf 的完整编程流程。
- 使用 Channel 进行通信
介绍 Channel 抽象,用于 Worker 之间异步的生产者-消费者通信, 是实现跨 RL 阶段细粒度流水线的关键。
- Checkpoint 转换
讲解如何从保存的checkpoint文件转换到huggingface safetensors文件, 用于评估checkpoint性能或上传到huggingface仓库。
- 多机 Ray 集群启动
启动多机 Ray 集群,配置环境变量和代码同步, 并通过 Ray 集群启动 RLinf 训练任务。
- 灵活执行模式
涵盖 RLinf 的全部三种执行模式:共享式、分离式和混合式, 包含各模式的示例配置和编程模式。