跳转至主要内容
Ctrl+K
RLinf
Ctrl+K
  • English
  • 中文
  • GitHub
  • 快速开始
    • 环境要求
    • 安装说明
    • 快速上手
    • 速查表
  • 示例
    • 模拟器
      • ManiSkill
      • LIBERO
      • Behavior
      • MetaWorld
      • IsaacLab
      • CALVIN
      • RoboCasa
      • RoboTwin
      • RoboVerse
      • Franka-Sim
      • EmbodiChain
      • PolaRiS
      • GSEnv
      • Genesis
    • 真机
      • Franka
        • Reward Model
        • ZED + Robotiq
        • GELLO
        • Dual-Arm
        • Dexterous Hand
        • Pi0 SFT
        • HG-DAgger
      • GimArm
      • XSquare Turtle2
      • DOS-W1
    • 模型
      • MLP
      • π₀ / π₀.₅
      • GR00T
      • Lingbot-VLA
      • Dexbotic
      • StarVLA
      • ABot-M0
      • OpenSora
      • Wan
    • SFT
      • OpenPI
      • DreamZero
      • VLM
    • 算法
      • SAC-Flow
      • DSRL
      • DAgger
      • RECAP
      • Co-Training
      • IQL (D4RL)
    • 智能体
      • WideSeek-R1
        • 工具配置
        • WideSeek-R1 训练
        • WideSeek-R1 评测
      • AgentLightning
      • Coding Online RL
      • Search-R1
      • rStar2
      • Math GRPO
      • Math PPO
    • 系统
      • FUSCO高性能MoE通信库
  • 评测
    • 快速入门
      • 概览
      • 环境安装
      • 快速体验
    • Benchmark 指南
      • 真机评测
      • BEHAVIOR-1K 评测
      • LIBERO 评测
      • ManiSkill OOD 评测
      • PolaRiS 评测
      • RoboTwin 评测
    • 参考
      • 配置参考
      • CLI 参考
      • 支持的模型
      • 日志与结果
  • 指南
    • 配置
      • 基础配置
      • 具身智能配置
      • 智能体配置
      • 日志
    • 启动与扩展
      • 多节点训练
      • 异构集群
      • 云边协同
      • 真机机器人
    • 数据与 Checkpoint
      • 数据采集
      • Checkpoint 转换
      • 恢复训练
    • 性能
      • 自动 Placement
      • 动态调度
      • Profiling
      • 5D 并行
      • LoRA
    • 硬件后端
      • AMD ROCm
      • Ascend CANN
      • SGLang 版本切换
    • 智能体工作流
      • 智能体指南
  • 概念
    • 执行模型
      • RLinf 执行流程
      • M2Flow 编程流程
      • Worker 与 WorkerGroup
      • Cluster
      • Channel
      • 集合通信
    • 调度模型
      • Placement
      • 执行模式
      • Replay Buffer
  • 参考
    • API
      • Worker 接口
      • Placement 接口
      • Cluster 接口
      • Channel 接口
      • Actor 接口
      • Rollout 接口
      • Environment 接口
      • Data 接口
      • Embodied Data 接口
      • Replay Buffer
    • 算法
      • PPO
      • GRPO
      • DAPO
      • Reinforce++
      • SAC
      • CrossQ
      • RLPD
      • IQL
      • Async PPO
    • 配置
      • 训练配置
      • 训练指标
  • 扩展
    • 扩展概览
    • 新环境
    • FSDP 新模型
    • Megatron 新模型
    • 新 SFT 模型
    • 高级集成
      • Megatron-Bridge
      • 权重同步
      • 奖励模型流程
  • 资源
    • 为什么选择 RLinf
    • 博客
      • 与 VeRL 的对比
      • 智能体落地“最后一公里”初探之Cursor在线强化学习
      • 为具身智能的“ImageNet 时刻”按下加速键:RLinf 为 BEHAVIOR 带来 25 倍系统优化
    • 论文
      • RLinf-USER: Unified System for Real-world Online Policy Learning
      • RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training
      • Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models
      • RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation
      • πRL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models
      • WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL
      • WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
    • 发布说明
    • FAQ
  • 资源
  • 博客

博客#

本章节包含与 RLinf 框架相关的其他杂项主题,这些主题不属于前面已经定义的类别。 内容包括工程实践、系统优化解析,以及来自 RLinf 团队的其他深度文章。

未来我们会继续扩展这一部分内容,敬请期待!

  • 与 VeRL 的对比
  • 智能体落地“最后一公里”初探之Cursor在线强化学习
  • 为具身智能的“ImageNet 时刻”按下加速键:RLinf 为 BEHAVIOR 带来 25 倍系统优化

上一页

为什么选择 RLinf

下一页

与 VeRL 的对比

© Copyright 2025 RLinf Project.

由 Sphinx 9.0.4创建。

使用 PyData Sphinx Theme 0.16.1构建.