高级特性#
本章将逐步深入讲解 RLinf 如何实现 高效执行, 并提供实用指南,帮助你充分优化 RL 后训练工作流。
- 5D 并行配置
解释 RLinf 如何支持 Megatron 风格的 5D 并行,包括: 张量并行 (TP)、数据并行 (DP)、流水线并行 (PP)、 序列并行 (SP) 和上下文并行 (CP)。 学习如何配置和组合这些维度,以高效扩展大模型。
- LoRA 集成
展示如何在 RLinf 中集成低秩适配 (LoRA), 以极小的计算开销实现参数高效的微调。
- 切换 SGLang 版本
描述如何在不同的 SGLang 版本之间动态切换, 以满足不同的兼容性需求或实验要求。
- 检查点恢复
讲解如何从保存的检查点恢复训练, 以确保容错性,并为长时间或中断的训练任务提供无缝衔接。
- Checkpoint 转换
讲解如何从保存的checkpoint文件转换到huggingface safetensors文件, 用于评估checkpoint性能或上传到huggingface仓库。
- 异构软硬件集群配置
介绍如何配置和使用异构软硬件集群, 以充分利用不同类型的计算资源和硬件设备。
- 云边协同训练配置
展示如何使用 EasyTier 搭建云边协同训练环境,把云端与边缘节点接入同一个 overlay 网络,并在该网络之上运行 RLinf。
- 训练可视化
介绍如何在训练过程中可视化和跟踪关键指标。 目前,我们支持三种实验追踪与可视化后端: TensorBoard、Weights & Biases (wandb) 和 SwanLab。