算法#
当你需要查看支持的 RL 算法目标、适用范围与实现说明时,使用这些参考页。
算法 |
简介 |
|---|---|
Proximal Policy Optimization。 |
|
Group Relative Policy Optimization。 |
|
解耦裁剪与动态采样的策略优化。 |
|
增强版 REINFORCE 基线。 |
|
Soft Actor-Critic。 |
|
无需 target 网络的高样本效率离策略 RL。 |
|
利用先验数据的强化学习。 |
|
面向离线 RL 的 Implicit Q-Learning。 |
|
异步流水线化的 PPO。 |