系统级优化#
RLinf的整体设计简洁且模块化,以Worker为抽象封装强化学习训练、智能体中的组件,提供灵活高效的通信库做组件间通信。基于这种解耦的设计,可以灵活调度Worker所使用的计算资源,也可以将Worker分配到更适配的加速器上。
[开发中]Worker(组件)间秒级热切换
秒级热切换提升训练速度50%+
[开发中]异构加速器混合训练
使用不同加速器运行的组件间灵活互通,构建训练工作流
RLinf的整体设计简洁且模块化,以Worker为抽象封装强化学习训练、智能体中的组件,提供灵活高效的通信库做组件间通信。基于这种解耦的设计,可以灵活调度Worker所使用的计算资源,也可以将Worker分配到更适配的加速器上。
[开发中]Worker(组件)间秒级热切换
秒级热切换提升训练速度50%+
[开发中]异构加速器混合训练
使用不同加速器运行的组件间灵活互通,构建训练工作流