API手册#

带你了解 RLinf 中最核心的 API 接口及其用法。 这些关键 API 是暴露给用户的,用来简化 RL 中复杂的数据流,让用户只需关注高层抽象,而无需关心底层的具体实现。

本 API 文档采用自底向上的方式展开,首先介绍 RLinf 的基础 API,包括:

API

内容

Worker

Worker 与 Worker 组的统一接口。

Placement

RLinf 的 GPU Placement 策略介绍。

Cluster

通过集群支持分布式训练。

Channel

底层通信原语,包括生产者-消费者队列抽象。

随后我们介绍上层 API,用于实现 RL 的不同阶段:

API

内容

Actor

基于 FSDP 与 Megatron 的 Actor 封装。

Rollout

基于 Hugging Face 与 SGLang 的 Rollout 封装。

Env

面向具身智能场景的环境封装。

Data

不同 Worker 间传输的数据结构。

Embodied Data

具身场景的 Env/Rollout 数据结构。

Replay Buffer

轨迹级 Replay Buffer 的设计与采样机制。