自动扩缩机制#

自动扩缩（也称为弹性训练）是一项强大的功能，可以在 1 秒内完成 GPU 切换，实现训练资源的动态扩缩。通过这一能力，你可以根据集群可用性、任务需求或资源优化目标，实时调整训练所使用的 GPU 和节点数量。

什么是自动扩缩？#

自动扩缩指的是在训练过程中能够 向上扩缩 （增加更多资源）或 向下缩减 （释放部分资源），同时保持训练的连续性和模型状态的一致性。

在使用 Megatron-LM 进行 RL 训练时，这包括：

向上扩缩 ：增加节点/GPU 来提升训练吞吐量
向下缩减 ：释放节点/GPU，将资源腾出来给其他任务
并行策略调整 ：动态改变 Megatron 的并行策略（TP/PP/DP/CP）

系统会自动处理以下内容：

模型参数在新的并行配置中的重新分布
优化器状态的迁移
通信组的重建
训练状态的同步

为什么自动扩缩很重要？#

当使用 RLinf 的分离式模式并结合细粒度流水线时， rollout 和 inference 阶段通常会在 actor 阶段结束前就完成。此时，可以在 几秒内 将 rollout 和 inference 所使用的资源重新分配给 actor 阶段，从而加速 actor 的训练，并提升整个系统的性能。

优势与效果#

性能优势：

更高的吞吐量：增加更多 GPU 可以显著提升训练速度
更好的资源利用率：动态分配资源确保资源使用最优
缩短训练时间：高效扩缩可减少 20–50% 的整体训练时间

运维优势：

零训练中断：扩缩过程无缝进行，不会中断训练
一致的训练进展：在扩缩过程中保持收敛性和模型连续性