STEAM: Self-Supervised Temporal Ensemble Advantage Modeling for Real-World Robot Learning#

概述#

真实机器人学习越来越依赖异构数据，但演示与 rollout 常常把有效进展与停滞、纠正和次优行为混在一起。因此，有效的策略学习需要帧级优势，以区分可靠的局部进展与失败和倒退。

STEAM（Self-supervised Temporal Ensemble Advantage Modeling，自监督时序集成优势建模）是一种无需标注的方法，可从专家演示中学习这类优势，无需人工标注或手工设计奖励。STEAM 在专家轨迹的帧对上训练一组时序偏移预测器，以两帧之间归一化的时序偏移作为自监督信号；每个预测器将帧对映射为时序偏移上的分布，并转换为标量优势；随后 STEAM 取集成中的 最小优势（worst-of-N），对混合质量的 rollout 数据进行保守评分，抑制单一预测器对分布外数据的优势高估。

得到的优势可用于专家数据、人工纠正和策略 rollout。与 CFGRL（与 RECAP 相同的 classifier-free guidance 训练）结合后，STEAM 在多项真机任务上显著提升策略性能。

结果#

在真实世界的双臂叠毛巾、芯片结账、可乐补货以及单臂抓取放置任务上，STEAM 能够识别停滞、失败与恢复；与 CFGRL 结合后，相较 RECAP 基线进一步提升下游策略性能。

快速开始#

教程： STEAM：用于离线策略优化的集成优势建模

引用#

@misc{liu2026steam,
  title         = {STEAM: Self-Supervised Temporal Ensemble Advantage
                   Modeling for Real-World Robot Learning},
  author        = {Liu, Zhihao and Gu, Qiuyi and Wang, Yitao and Qiao, Dongming
                   and Zhang, Yixian and Chen, Shuaihang and Shi, Liangzhi
                   and Zhou, Tianxing and Huang, Zefang and Chen, Kang
                   and Guo, Zhen and Zhang, Quanlu and Yu, Jincheng
                   and Liang, Xiaodan and Fan, Guoliang and Wang, Yu
                   and Gao, Feng and Chen, Xinlei and Yu, Chao},
  year          = {2026},
  eprint        = {2606.29834},
  archivePrefix = {arXiv},
  primaryClass  = {cs.RO}
}