高级特性#

本章将逐步深入讲解 RLinf 如何实现 高效执行，并提供实用指南，帮助你充分优化 RL 后训练工作流。

LoRA 集成
展示如何在 RLinf 中集成低秩适配 (LoRA)，以极小的计算开销实现参数高效的微调。
5D 并行配置
解释 RLinf 如何支持 Megatron 风格的 5D 并行，包括：张量并行 (TP)、数据并行 (DP)、流水线并行 (PP)、序列并行 (SP) 和上下文并行 (CP)。学习如何配置和组合这些维度，以高效扩展大模型。
基于 Ray 的集群启动
介绍全局唯一的 Cluster 对象，负责协调分布式训练中所有角色、进程和跨节点通信。涵盖 Ray 初始化、节点发现和 Worker 分配。
自适应点对点通信
介绍 Worker 之间底层、高性能的 Python 对象交换，使用 CUDA IPC 和 NCCL 等优化的点对点后端以降低通信开销。
切换 SGLang 版本
描述如何在不同的 SGLang 版本之间动态切换，以满足不同的兼容性需求或实验要求。
GPU Profiling
介绍 cluster.profiling 配置，支持通过 nsys profile``（NVIDIA）或 ``rocprof-sys-python``（AMD）包装指定的 Ray worker group，并说明 ``enabled、worker_groups、steps、output_dir 等公共字段的用法。
动态调度
涵盖 RLinf 的在线扩缩与动态调度机制：如何在训练过程中对资源进行秒级弹性扩缩与组件间迁移，以最大化吞吐和利用率，包括前置依赖、配置示例和可选调度策略。
自动放置
详细介绍 RLinf 中自动放置的具体实现，包括如何正确配置以启用自动放置功能。