自动扩缩机制#
自动扩缩(也称为弹性训练) 是一项强大的功能,可以在 1 秒内完成 GPU 切换,实现训练资源的动态扩缩。 通过这一能力,你可以根据集群可用性、任务需求或资源优化目标,实时调整训练所使用的 GPU 和节点数量。
什么是自动扩缩?#
自动扩缩指的是在训练过程中能够 向上扩缩 (增加更多资源)或 向下缩减 (释放部分资源), 同时保持训练的连续性和模型状态的一致性。
在使用 Megatron-LM 进行 RL 训练时,这包括:
向上扩缩 :增加节点/GPU 来提升训练吞吐量
向下缩减 :释放节点/GPU,将资源腾出来给其他任务
并行策略调整 :动态改变 Megatron 的并行策略(TP/PP/DP/CP)
系统会自动处理以下内容:
模型参数在新的并行配置中的重新分布
优化器状态的迁移
通信组的重建
训练状态的同步
为什么自动扩缩很重要?#
当使用 RLinf 的分离式模式并结合细粒度流水线时, rollout 和 inference 阶段通常会在 actor 阶段结束前就完成。 此时,可以在 几秒内 将 rollout 和 inference 所使用的资源重新分配给 actor 阶段, 从而加速 actor 的训练,并提升整个系统的性能。
优势与效果#
性能优势:
更高的吞吐量:增加更多 GPU 可以显著提升训练速度
更好的资源利用率:动态分配资源确保资源使用最优
缩短训练时间:高效扩缩可减少 20–50% 的整体训练时间
运维优势:
零训练中断:扩缩过程无缝进行,不会中断训练
一致的训练进展:在扩缩过程中保持收敛性和模型连续性