通訊庫性能檢測
更新時間 2025-09-07 21:25:09
最近更新時間: 2025-09-07 21:25:09
分享文章
通訊庫性能檢測對兩種典型的集合通訊庫,即英偉達系列的NCCL和昇騰系列的HCCL進行多種通信模型的性能檢測,可輸出算法帶寬,輔助用戶判斷環境健康。
此功能目前只在部分資源池提供,具體資源池信息請詢問客戶經理
使用前提
當前用戶是主賬號。
操作步驟
登錄通用計算控制臺,單擊左側導航欄中的【通訊庫性能檢測】,進入通訊庫性能檢測新建頁。
選擇檢測內容。
字段 | 說明 |
通訊庫類別 | nccl(英偉達)、hccl(昇騰)。 |
| 通訊模型 | 選擇相關通訊模型(單選)。 |
單節點待測GPU數量 | 1-8,默認為8,目前支持的節點規格單節點不會超過8卡。 |
3. 選擇檢測目標。
字段 | 說明 |
集群名稱 | 根據選擇的通訊庫(nccl或hccl)列出相關集群供用戶選擇。如選擇nccl,則列出英偉達資源組;選擇了hccl,列出昇騰資源組。 |
選擇節點 | 根據選擇的集群列出集群下方的節點,對節點進行勾選,可多選。 |
節點密碼 | 輸入集群下節點的密碼,(該密碼為root用戶密碼)。 注意:集群下各節點密碼需要保持一致,該輸入框只能輸入一個節點密碼,不一致會檢測失敗。 |
4. 開始檢測。
1)點擊【開始檢測】,啟動檢測,也可以點擊【檢測歷史】查看節點的歷史檢測報告。
2)啟動之后,進行檢測確認。確認之后,跳入檢測歷史頁面進行檢測結果查看。