CTCCL-Slowdetect最佳實踐
更新時間 2025-10-22 15:47:10
最近更新時間: 2025-10-22 15:47:10
分享文章
本文為您介紹CTCCL-Slowdetect最佳實踐。
在4臺A800*8,每臺節點有8張mlx網卡,RoCE組網,部署慢節點工具套件。其中,在4節點上容器化部署模型訓練基礎環境以及llama2-7b訓練模型,在node1上容器化部署ctccm服務,并在每一臺節點上容器化部署ctccl-profiler服務。
在訓練任務代碼中調用ctccl-profiler-comm API:
在訓練腳本中配置相關環境變量
啟動ctccm-slowdetect服務
export PATH="/usr/local/python3/bin:$PATH"(替換為自己的安裝路徑) &&ctccm --nnodes 4 --port 8002 --debug
啟動所有節點上的ctccl-profiler-net服務
啟動分布式訓練任務,ctccm會收到任務的邏輯拓撲
ctccm在訓練中檢測集群中是否存在慢節點,一旦發現慢節點則下發開始收集細粒度的監控信息的控制信號,并做慢節點定位定界。
當計算慢時,ctccm會給出計算慢的TP通信域所包含的rank。
當通信慢時,ctccm會給出慢的QP以及它所對應的網卡對和所在節點。