跳转至主要内容

Ctrl+K

Ctrl+K

English
中文

GitHub

快速开始
示例
- 模拟器
  - ManiSkill
  - LIBERO
  - Behavior
  - MetaWorld
  - IsaacLab
  - CALVIN
  - RoboCasa
  - RoboTwin
  - RoboVerse
  - Franka-Sim
  - EmbodiChain
  - PolaRiS
  - GSEnv
  - Genesis
- 真机
  - Franka
    
    Reward Model
    
    ZED + Robotiq
    
    GELLO
    
    Dual-Arm
    
    Dexterous Hand
    
    Pi0 SFT
    
    HG-DAgger
  - GimArm
  - XSquare Turtle2
  - DOS-W1
- 模型
  - MLP
  - π₀ / π₀.₅
  - GR00T
  - Lingbot-VLA
  - Dexbotic
  - StarVLA
  - ABot-M0
  - OpenSora
  - Wan
- SFT
  - OpenPI
  - DreamZero
  - VLM
- 算法
  - SAC-Flow
  - DSRL
  - DAgger
  - RECAP
  - Co-Training
  - IQL (D4RL)
- 智能体
- 系统
  - FUSCO高性能MoE通信库
评测
指南
概念
- 执行模型
- 调度模型
参考
- API
- 算法
  - PPO
  - GRPO
  - DAPO
  - Reinforce++
  - SAC
  - CrossQ
  - RLPD
  - IQL
  - Async PPO
- 配置
  - 训练配置
  - 训练指标
扩展
资源

指南
智能体工作流

智能体工作流#

当你运行智能体或推理工作负载，而不是具身 RL 任务时，使用这个指南。

指南	内容
智能体指南	智能体任务的操作流程。

上一页

切换 SGLang 版本

下一页

智能体强化学习

© Copyright 2025 RLinf Project.

由 Sphinx 9.0.4创建。

使用 PyData Sphinx Theme 0.16.1构建.