附:CTCCL環境變量
更新時間 2025-01-14 16:18:29
最近更新時間: 2025-01-14 16:18:29
分享文章
CTCCL(CTyun Collective Communication Library)是天翼云自研的集合通信庫。CTCCL針對天翼云自身特點持續優化,提升性能并提供額外的可靠性保障。
CTCCL環境變量
CTCCL兼容NCCL環境變量,NCCL環境變量參考:。
常使用的CTCCL環境變量如下,推薦值僅供參考,具體使用以實際情況為準。
| 環境變量 | 描述 | 推薦值 |
|---|---|---|
| NCCL_IB_GID_INDEX | RDMA協議使用的GID | 3 |
| NCCL_IB_HCA | RDMA通信使用的網卡 | mlx5 |
| NCCL_IB_TIMEOUT | RDMA連接超時時間,合理配置可以提高訓練任務的容錯能力 | 22 |
| NCCL_SOCKET_IFNAME | 使用該端口建立連接 | bond0 |
| NCCL_DEBUG | 日志級別 | INFO/WARN |
| NCCL_DEBUG_SUBSYS | 打印的info信息子類別,設置為REPORT可以輸出網卡對帶寬信息(若帶寬統計功能開啟)、事件上報日志(若上報功能開啟) | REPORT |
| NCCL_IB_QPS_PER_CONNECTION | 單連接使用的并行傳輸QP數量。若要使用QP切換與重傳功能,請不要配置為1 | 8 |
| NCCL_NET_PLUGIN | 配置網絡插件 | none |
| CTCCL_ERR_REPORT | 默認為0,配置為1后,CTCCL內部發現異常上報平臺。平臺拉起訓練任務時,該功能默認打開。 | 1 |
| CTCCL_BW_REPORT | 默認為0,配置為1后,統計網卡對集合通信帶寬信息并記錄在日志中,日常正常訓練不建議開啟。平臺拉起訓練任務時,該功能默認打開。 | 0 |
| CTCCL_IB_LB_UPLINK | 默認為0,RoCE組網下,推薦配置為leaf交換機上行鏈路數。IB環境下請配置為0,或不做配置。 | IB:0 RoCE:上行鏈路數 |
開啟CTCCL自研特性,需要添加如下變量:
| 環境變量 | 說明 | 取值 |
|---|---|---|
| CTCCL_IB_RETRY_DISABLE | 開啟故障重傳機制 | 默認開啟 |