AgentLightning 的强化学习训练(calc_x)#

calc_x 是 RLinf 中的 AgentLightning 示例,用于训练一个会做数学题的 agent。 agent 会读取题目,生成推理过程与答案,并根据反馈做强化学习更新。

环境#

RLinf 基础环境请参考 RLinf Installation

安装本示例依赖:

pip install "agentlightning==0.3.0" "autogen-agentchat" "autogen-ext[openai]" "mcp>=1.10.0" "mcp-server-calculator"

硬件建议:

  • 这个例子需要一个节点,至少有一个40GB的显卡。

数据准备#

下载并解压 calc_x 数据集(Google Drive),下载链接见 这里

训练#

进入示例目录:

cd /path/to/rlinf/examples/agentlightning/calc_x

先修改 config/qwen2.5-1.5b-trajectory.yaml

rollout:
  model:
    model_path: /path/to/model/Qwen2.5-1.5B-Instruct

data:
  train_data_paths: ["/path/to/train.parquet"]
  val_data_paths: ["/path/to/test.parquet"]

启动训练:

bash run_calc_x.sh qwen2.5-1.5b-enginehttp-multiturn

训练曲线#

以下为一次 calc_x 训练运行的指标曲线示例(具体曲线会因配置与随机种子而有所不同):

AgentLightning calc_x 训练曲线

AgentLightning calc_x 训练曲线#

测试#

HF 评测时在对应的 *_eval.yaml 里设置 rollout.model.model_path。例如:

bash run_calc_x.sh qwen2.5-1.5b-enginehttp-multiturn_eval
bash run_calc_x.sh qwen2.5-1.5b-enginehttp-trajectory_eval