CTCCL關鍵特性
· 主動避障,RDMA網絡多路徑傳輸,當感知到部分路徑異常,則在條件允許情況下自動將流量切換到正常路徑。
· 并行傳輸,動態感知不同RDMA網絡路徑的傳輸能力,合理分配傳輸任務,從端側保證帶寬利用率最大化。
· 監控能力,日志機制聯合事件機制,提供網卡對集合通信帶寬監控和QP通信異常事件上報智能平臺能力。
· 端網協同,在RoCE組網下實現端網協同負載均衡,降低哈希沖突帶來的影響,提高鏈路利用率。
· 故障定位,結合慢節點工具套件,提供自動化訓練中慢節點發現與定位能力。
CTCCL發布記錄
版本號 | 發布日期 | 更新內容 |
|---|---|---|
v0.4.0 | 2025-9-30 | · 新增功能 - 適配CTCCL慢節點檢測工具套件。 · 優化改進 - 為流體重力功能增加開關,使用環境變量配置,以便靈活使用該功能。 |
v0.3.0 | 2024-12-30 | ·新增功能 - 新增QP通信事件上報功能,在機間RDMA通信異常時上報異常事件至平臺。僅在一體化計算加速平臺·異構計算平臺部署的地域可用。 - 新增集合通信網卡對帶寬功能,用戶可通過配置環境變量開啟,并通過日志查看帶寬信息。 - 新支持RoCE組網端網協同,有效改善交換機端口流量不均問題,提高帶寬利用率。 · 缺陷修復 - 修復了QP數設置大于32直接異常退出的問題。 - 修復了alltoall集合通信操作時,由于資源開銷大而導致的性能低問題。 · 優化改進 - 優化流體重力算法,以更靈活的動態任務分配方式,在擁塞場景提高通信性能10%。 |
v0.2.0 | 2024-06-30 | · 新增功能 - 新增流體重力算法,并行傳輸,動態感知不同RDMA網絡路徑的傳輸能力,合理分配傳輸任務,從端側保證帶寬利用率最大化。 · 優化改進 |
v0.1.0 | 2024-04-30 | · 新增功能 - 天翼云自研集合通信庫CTCCL首次發布。 - CTCCL具有主動避障功能,提升RDMA通信容錯能力。支持單QP傳輸,當感知到部分路徑異常,則在條件允許情況下自動將流量切換到正常路徑 |
升級提示:
· 在升級CTCCL新版本之前,請確保已停止該環境所有的訓練任務,升級方式和安裝方法相同。
· 需要升級集群中所有節點的CTCCL版本,新版本和舊版本不兼容在同個訓練任務中使用。