管理訓練容器環境變量
更新時間 2025-01-10 09:45:06
最近更新時間: 2025-01-10 09:45:06
分享文章
展示了訓練容器中一體化計算加速平臺·異構計算預置的環境變量以及可用戶可參考自行設置的環境變量。
如何設置環境變量
在創建訓練任務頁面可增加新的環境變量。
為避免新設置的環境變量被預置的環境變量覆蓋導致失效,請在定義環境變量時,不要和預置的系統環境變量重復。具體訓練容器中預置的環境變量見下方。
說明
為保證數據安全,請勿輸入敏感信息,例如明文密碼。
訓練容器中預置的環境變量
訓練容器中預置的環境變量如下表所示。
分布式訓練作業環境變量
| 變量名 | 說明 |
|---|---|
| MASTER_ADDR | 運行排名為 0 的容器的宿主機的主機名;用于初始化 Torch 分布式后端。 對應--master_addr參數。 |
| MASTER_PORT | MASTER_ADDR 上的端口,可用于托管 C10d TCP 存儲。 對應--master_port參數。 |
| RANK | 全局排名。 對應--node_rank參數。 |
| WORLD_SIZE | 世界大小(作業中容器的總數)。 對應--nnodes參數。 |
| NODE_IP | 訓練任務容器所在節點的IP。 |
| NODE_NAME | 訓練任務容器所在節點的名稱。 |
| POD_NAMESPACE | 訓練任務容器所在集群的命名空間。 |
| POD_IP | 訓練任務容器的IP。 |
| POD_NAME | 訓練任務容器的角色名。 |
查看環境變量
在創建訓練作業時,“啟動命令”輸入為“/bin/bash -c env”,其他參數保持不變。
當訓練作業執行完成后,在訓練任務詳情頁面中查看“日志”。日志中即為所有的環境變量信息。