高级集成#
当扩展内容涉及后端集成、权重传输或奖励模型工作流,而不是添加主要模型或环境时, 使用这些指南。
指南 |
内容 |
|---|---|
使用 Megatron-Bridge actor 后端。 |
|
优化具身训练中 actor 到 rollout 的权重同步。 |
|
使用图像分类与 VLM 奖励模型。 |
当扩展内容涉及后端集成、权重传输或奖励模型工作流,而不是添加主要模型或环境时, 使用这些指南。
指南 |
内容 |
|---|---|
使用 Megatron-Bridge actor 后端。 |
|
优化具身训练中 actor 到 rollout 的权重同步。 |
|
使用图像分类与 VLM 奖励模型。 |