训练配置#
RLinf 示例使用 Hydra YAML 配置。这个页面作为共享配置参考;示例页面应链接到这里, 不要重复大段配置字段表。
配置位置#
工作负载 |
配置位置 |
启动入口 |
|---|---|---|
具身 RL |
|
|
推理 RL |
|
|
智能体工作流 |
|
对应 |
SFT |
|
对应 recipe 的 |
评测 |
|
|
常用配置段#
配置段 |
用途 |
|---|---|
|
节点数量、节点组,以及 actor、rollout、env、reward 或 agent worker 的组件放置。 |
|
训练后端、模型路径、优化器、batch size、offload、checkpoint 与 loss 设置。 |
|
推理引擎、采样参数、模型路径和 rollout batch 设置。 |
|
训练 / 评测环境类型、任务选择、资产路径、视频设置和 episode 控制。 |
|
任务类型、日志、checkpoint 间隔、验证间隔和断点续训行为。 |
|
PPO、GRPO、SAC、IQL 或 DAgger 等算法的 advantage、loss 与专用设置。 |
|
数据集路径、prompt / answer 字段、预处理、训练 / 验证划分和 SFT 数据选项。 |
修改 Recipe#
从
examples/或evaluations/下的命名配置开始。设置本地路径,例如
rollout.model.model_path、actor.model.model_path、 数据集路径和环境资产路径。将硬件相关放置保留在
cluster中。多节点运行时,设置cluster.num_nodes, 并在每个节点启动 Ray 后再启动 recipe。将日志和 checkpoint 放在
runner.logger.log_path下,便于统一管理 TensorBoard、 视频和 checkpoint。