高级特性#

本章将逐步深入讲解 RLinf 如何实现 高效执行, 并提供实用指南,帮助你充分优化 RL 后训练工作流。

  • LoRA 集成

    展示如何在 RLinf 中集成低秩适配 (LoRA), 以极小的计算开销实现参数高效的微调。

  • 5D 并行配置

    解释 RLinf 如何支持 Megatron 风格的 5D 并行,包括: 张量并行 (TP)、数据并行 (DP)、流水线并行 (PP)、 序列并行 (SP) 和上下文并行 (CP)。 学习如何配置和组合这些维度,以高效扩展大模型。

  • 基于 Ray 的集群启动

    介绍全局唯一的 Cluster 对象,负责协调分布式训练中所有角色、 进程和跨节点通信。涵盖 Ray 初始化、节点发现和 Worker 分配。

  • 自适应点对点通信

    介绍 Worker 之间底层、高性能的 Python 对象交换, 使用 CUDA IPC 和 NCCL 等优化的点对点后端以降低通信开销。

  • 切换 SGLang 版本

    描述如何在不同的 SGLang 版本之间动态切换, 以满足不同的兼容性需求或实验要求。

  • GPU Profiling

    介绍 cluster.profiling 配置,支持通过 nsys profile``(NVIDIA)或 ``rocprof-sys-python``(AMD)包装指定的 Ray worker group,并说明 ``enabledworker_groupsstepsoutput_dir 等公共字段的用法。

  • 动态调度

    涵盖 RLinf 的在线扩缩与动态调度机制:如何在训练过程中对资源进行 秒级弹性扩缩与组件间迁移,以最大化吞吐和利用率, 包括前置依赖、配置示例和可选调度策略。

  • 自动放置

    详细介绍 RLinf 中自动放置的具体实现, 包括如何正确配置以启用自动放置功能。