通訊庫性能檢測
更新時間 2025-05-08 09:18:30
最近更新時間: 2025-05-08 09:18:30
分享文章
通訊庫性能檢測對兩種典型的集合通訊庫,即英偉達系列的NCCL和昇騰系列的HCCL進行多種通信模型的性能檢測,可輸出算法帶寬,輔助用戶判斷環境健康。
使用前提
當前用戶是主賬號。
操作步驟
選擇檢測內容:
點擊“通訊庫性能檢測”菜單,進入通訊庫性能檢測新建頁,選擇檢測內容。
通訊庫類別:nccl(英偉達)、hccl(昇騰)。
通訊模型:選擇相關通訊模型(單選)。
單節點待測GPU數量:1-8,默認為8,目前云驍支持的節點規格單節點不會超過8卡。
啟用SHARP:選擇nccl,默認勾選,選擇hccl,無此選項。
說明
SHARP 是隨IB網絡一起推出的,可將集合通信運算(如 all-reduce、reduce 和 broadcast)從服務器的計算引擎卸載到網絡交換機的插件。通過直接在網絡結構中執行歸約(求和、平均等),勾選SHARP在配套軟硬件支持的基礎上可改進這些運算和整體應用程序性能。
選擇檢測目標:
資源組名稱:根據選擇的通訊庫(nccl或hccl)列出相關資源組供用戶選擇。如選擇nccl,則列出英偉達資源組;選擇了hccl,列出昇騰資源組。
選擇節點:根據選擇的資源組列出資源組下方的節點,對節點進行勾選,可多選。
節點密碼:輸入資源組下節點的密碼,(該密碼為root用戶密碼)。*注意:資源組下各節點密碼需要保持一致,該輸入框只能輸入一個節點密碼,不一致會檢測失敗。
開始檢測:
點擊“開始檢測”,啟動檢測,也可以點擊檢測歷史查看節點的歷史檢測報告。
啟動之后,進行檢測確認。確認之后,跳入檢測歷史頁面進行檢測結果查看。