CTCCL是基于NCCL并結合天翼云一體化計算加速平臺·異構計算架構開發的集合通信庫。和NCCL相比,CTCCL提升了通信效率并提供額外的可靠性保障,為用戶節約時間和經濟成本。
CTCCL新增關鍵特性
主動避障,RDMA網絡多路徑傳輸,當感知到部分路徑異常,則在條件允許情況下自動將流量切換到正常路徑。
并行傳輸,動態感知不同RDMA網絡路徑的傳輸能力,合理分配傳輸任務,從端側保證帶寬利用率最大化。
故障定位,第一時間識別故障點并上報,結合調度器修復或剔除故障節點,快速恢復硬件故障。
監控能力,日志機制聯合事件機制,提供網卡對集合通信帶寬監控和QP通信異常事件上報智能平臺能力。
端網協同,在RoCE組網下實現端網協同負載均衡,降低哈希沖突帶來的影響,提高鏈路利用率。
CTCCL發布記錄
| 版本號 | 發布日期 | 更新內容 | 升級提示 |
|---|---|---|---|
| v0.3.0 | 2024-12-30 |
|
|
| v0.2.0 | 2024-06-30 |
|
|
| v0.1.0 | 2024-04-30 |
|