CTCCL-Slowdetect簡介
更新時間 2025-10-21 14:14:03
最近更新時間: 2025-10-21 14:14:03
分享文章
CTCCL-Slowdetect是天翼云自研的用于大模型訓練中慢節點檢測的工具套件,需配合CTCCL-0.4.0及以上使用。
功能介紹
CTCCL-Slowdetect-1.0.0工具套件架構如圖所示,包括三個模塊。
· ctccm:跨節點的集中式慢節點診斷工具。部署在和所有訓練任務節點網絡互通的節點上,每個大模型訓練任務只需部署一個ctccm服務。負責收集匯總和集中發現與定位慢節點問題。
· ctccl-profiler-comm:通信域級別集合通信信息統計工具。在每個訓練任務所在的節點/容器內安裝ctccl-profiler-comm插件,在訓練任務的腳本中import相關庫并調用API接口使用,負責獲得訓練任務的通信域任務拓撲,以及收集通信域級別的超時集合通信操作事件,提供給ctccm進行慢節點分析診斷。
· ctccl-profiler-net:機間通信邊緣診斷工具。在每個訓練任務所在的節點/容器內部署ctccl-profiler-net服務,每個訓練任務節點都需要部署1個獨享的ctccl-profiler-net服務。負責在邊緣處理與初步診斷機間通信數據。
在大模型訓練任務中使用CTCCL-Slowdetect-1.0.0工具套件,能夠實現大模型訓練過程中通信原因與非通信原因的慢節點檢測。在發現集群中慢節點存在時,自動化開啟全量集合通信操作事件監控,進一步分析定位慢節點。
參數設置
使用CTCCL-Slowdetect工具套件時,支持配置的參數如下:
| 服務 | 參數命令 | 描述 |
|---|---|---|
| CTCCL | *CTCCL_QPTIME_REPORT | 默認為0。要使用慢節點檢測工具套件時,請配置為1,打開CTCCL機件通信信息統計功能。 |
| ctccl-profiler-comm | *CTCCL_SLOWDETECT_SERVERADDR | ctccm的ip地址。示例://192.168.0.1:8000。其中端口需和ctccm的監聽端口配置相同。 |
| CTCCL_PROFILER_TIMEOUT_RATE | 默認為20。表示當一次集合通信操作超過一個迭代時間的20%時,判斷該次集合通信為異常事件。由于每次迭代的總通信占比約為20%,故推薦設置為20,可根據集群與模型規模自行調整。 | |
| ctccl-profiler-net | *CTCCL_SLOWDETECT_SERVERADDR | 同ctccl-profiler-comm |
| *CTCCL_PROFILER_NETADDR | 監聽訓練任務信息入口。 默認為//127.0.0.1:8001。 | |
| --log-level | 日志級別。info(默認)、debug、warning、critical、error | |
| ctccm | *--port | 服務使用的監聽端口 |
| --debug | 是否開啟debug日志 | |
| *--nodes | 訓練任務的節點數。默認為1。 |
* 推薦自行配置。
診斷結果樣例
計算慢:
通信慢: