算法#

当你需要查看支持的 RL 算法目标、适用范围与实现说明时，使用这些参考页。

算法	简介
PPO	Proximal Policy Optimization。
GRPO	Group Relative Policy Optimization。
DAPO	解耦裁剪与动态采样的策略优化。
Reinforce++	增强版 REINFORCE 基线。
SAC	Soft Actor-Critic。
CrossQ	无需 target 网络的高样本效率离策略 RL。
RLPD	利用先验数据的强化学习。
IQL	面向离线 RL 的 Implicit Q-Learning。
Async PPO	异步流水线化的 PPO。