算法#

当你需要查看支持的 RL 算法目标、适用范围与实现说明时,使用这些参考页。

算法

简介

PPO

Proximal Policy Optimization。

GRPO

Group Relative Policy Optimization。

DAPO

解耦裁剪与动态采样的策略优化。

Reinforce++

增强版 REINFORCE 基线。

SAC

Soft Actor-Critic。

CrossQ

无需 target 网络的高样本效率离策略 RL。

RLPD

利用先验数据的强化学习。

IQL

面向离线 RL 的 Implicit Q-Learning。

Async PPO

异步流水线化的 PPO。