环境要求#
以下是经过充分测试的配置。
硬件#
组件 |
配置 |
|---|---|
GPU |
每个节点 8 块 H100 |
CPU |
每个节点 192 核心 |
内存 |
每个节点 1.8TB |
网络 |
NVLink + RoCE / IB,带宽 3.2 Tbps |
存储 |
单节点实验使用 1TB 本地存储
分布式实验使用 10TB 共享存储(NAS)
|
软件#
组件 |
版本 |
|---|---|
操作系统 |
Ubuntu 22.04 |
NVIDIA 驱动 |
535.183.06 |
CUDA |
12.4 |
Docker |
26.0.0 |
NVIDIA Container Toolkit |
1.17.8 |