API手册#
本节为你详细介绍 RLinf 中最核心的 API 接口,帮助用户深入理解我们的 API 设计和使用方式。 这些关键 API 是暴露给用户的,用来简化 RL 中复杂的数据流,让用户只需关注高层抽象,而无需关心底层的具体实现。
本 API 文档采用自底向上的方式展开,首先介绍 RLinf 的基础 API,包括:
Worker 接口 — Worker 与 Worker 组的统一接口。
Placement 接口 — RLinf 的 GPU Placement 策略介绍。
Cluster 接口 — 通过集群支持分布式训练。
Channel 接口 — 底层通信原语,包括生产者–消费者队列抽象。
随后我们介绍上层 API,用于实现 RL 的不同阶段:
Actor 接口 — 基于 FSDP 与 Megatron 的 Actor 封装。
Rollout 接口 — 基于 Huggingface 与 SGLang 的 Rollout 封装。
Environment 接口 — 面向具身智能场景的环境封装。
Data 接口 — 不同 Worker 间数据传输的数据结构封装。
Embodied Data 接口 — 具身场景的 Env/Rollout 数据结构。
Replay Buffer — 轨迹级 Replay Buffer 的设计与采样机制。