預置環境變量
更新時間 2025-06-19 15:02:50
最近更新時間: 2025-06-19 15:02:50
分享文章
本文檔用于指導用戶如何預置并行計算環境變量。
概述
在使用【并行計算】時,通常會為所有實例注入常見的環境變量,從而能快速部署訓練任務。預置環境變量會與所選擇的并行框架和資源規格有關。接下來將介紹幾種不同類型的環境變量說明。
環境變量說明
通用環境變量
| 變量名稱 | 變量值 | 變量說明 |
|---|---|---|
| OMP_NUM_THREADS | 整數 | 實例線程數 |
| NVIDIA_VISIBLE_DEVICES | GPU-UUID1,GPU-UUID2... | 實例GPU卡列表 |
MPI框架環境變量
| 變量名稱 | 變量值 | 變量說明 |
|---|---|---|
| OMPI_ALLOW_RUN_AS_ROOT | 1 | 允許OpenMPI在root下運行 |
| OMPI_ALLOW_RUN_AS_ROOT | 1 | 確認允許OpenMPI在root下運行 |
| OMP_NUM_THREADS | 1 | 每個進程的線程數,推薦1 |
| OMP_HOST_FILE | /etc/mpi/hostfile | hostfile路徑 |
Pytorch DDP環境變量
| 變量名稱 | 變量值 | 變量說明 |
|---|---|---|
| MASTER_ADDR | Launcher的hostname | 控制節點地址 |
| MASTER_PORT | 23456 | 控制節點端口,默認23456 |
| WORLD_SIZE | 實例數 | 全局總進程數 |
| RANK | 整數 | 當前進程編號 |
Pytorch使用IB規格環境變量
| 變量名稱 | 變量值 | 變量說明 |
|---|---|---|
| NCCL_IB_DISABLE | 0 | NCCL是否啟用IB網卡,0為啟用 |
| NCCL_IB_HCA | mlnx5_0 | 集群提供的IB網卡名稱 |
| NCCL_SOCKET_IFNAME | eth,eno,bond | 指定用于通信的IP接口 |