支持的强化学习算法#

本节将概述每种算法，包括其核心特点、损失函数以及在 RLinf 中高效运行所需的关键配置选项。

每种算法的实现都考虑了灵活性，研究人员和实践者可以将它们应用到各种强化学习任务中。无论是探索标准基准任务，还是设计自定义环境，RLinf 都提供了简化的接口来支持训练和评估。

目前，RLinf 支持以下多种常用的强化学习算法：