高级特性#

本章将逐步深入讲解 RLinf 如何实现 高效执行，并提供实用指南，帮助你充分优化 RL 后训练工作流。

5D 并行配置
解释 RLinf 如何支持 Megatron 风格的 5D 并行，包括：张量并行 (TP)、数据并行 (DP)、流水线并行 (PP)、序列并行 (SP) 和上下文并行 (CP)。学习如何配置和组合这些维度，以高效扩展大模型。
LoRA 集成
展示如何在 RLinf 中集成低秩适配 (LoRA)，以极小的计算开销实现参数高效的微调。
切换 SGLang 版本
描述如何在不同的 SGLang 版本之间动态切换，以满足不同的兼容性需求或实验要求。
检查点恢复
讲解如何从保存的检查点恢复训练，以确保容错性，并为长时间或中断的训练任务提供无缝衔接。
Checkpoint 转换
讲解如何从保存的checkpoint文件转换到huggingface safetensors文件，用于评估checkpoint性能或上传到huggingface仓库。
异构软硬件集群配置
介绍如何配置和使用异构软硬件集群，以充分利用不同类型的计算资源和硬件设备。
云边协同训练配置
展示如何使用 EasyTier 搭建云边协同训练环境，把云端与边缘节点接入同一个 overlay 网络，并在该网络之上运行 RLinf。
训练可视化
介绍如何在训练过程中可视化和跟踪关键指标。目前，我们支持三种实验追踪与可视化后端： TensorBoard、Weights & Biases (wandb) 和 SwanLab。