使用CTCCL容器
更新時間 2024-07-18 15:30:50
最近更新時間: 2024-07-18 15:30:50
分享文章
CTCCL(CTyun Collective Communication Library)是天翼云自研的集合通信庫。CTCCL針對天翼云自身特點持續優化,提升性能并提供額外的可靠性保障。
CTCCL測試
在NVIDIA平臺上,可以使用NCCL-Test工具測試CTCCL的性能。
-
測試代碼下載路徑:
//github.com/NVIDIA/nccl-tests.git -
編譯:
make MPI=1 MPI_HOME={{MPI路徑}} CUDA_HOME={{CUDA路徑}} NCCL_HOME={{NCCL路徑}} -j 40 -
使用 mpirun 啟動訓練進程:
mpirun --allow-run-as-root -np 2 -H IP1,IP2 -x NCCL_IB_HCA=mlx5_2 -x NCCL_IB_QPS_PER_CONNECTION=8 all_reduce_perf -b 8 -e 1G -f 2 -g 8