服務器檢測
更新時間 2025-09-07 21:25:00
最近更新時間: 2025-09-07 21:25:00
分享文章
服務器檢測提供針對集群的GPU、NPU節點的檢測能力,主要檢測節點的關鍵軟硬件是否安裝,關鍵配置是否開啟,參與訓練的多節點配置是否一致,配置是否符合用戶設定等方面。
此功能目前只在部分資源池提供,具體資源池信息請詢問客戶經理
使用前提
當前用戶是主賬號。
操作步驟
登錄通用計算控制臺,單擊左側導航欄中的【服務器檢測】,進入服務器檢測任務新建頁。
選擇檢測類型,【Nvidia系列】或者【昇騰系列】。
選擇檢測內容。
字段 | 說明 |
節點通用檢測項 | 該項為系統內置檢測項,用來判斷單個節點的關鍵軟件和配置是否符合預期,用戶可以根據自己的業務需求進行檢測項的選擇,檢測結果為“通過”或“不通過”。 |
多節點一致性檢測項 | 系統內置檢測項,用來判斷參與訓練的多節點關鍵配置是否一致。主要分為兩種場景:
|
節點可配置檢測項 | 系統內置檢測項和用戶自定義檢測參數。針對具體檢測項,用戶可自行定義檢測標準,檢測結果為“通過”或“不通過”。 |
4. 選擇檢測目標。
字段 | 說明 |
| 集群 | 根據選擇的系列(Nvidia或昇騰)列出相關集群供用戶選擇(單選)。 |
節點 | 左側選擇集群內單個或多個節點作為目標,將其移動到右側成為已選節點。 |
開啟基線節點設置 | 選擇一個節點作為多節點一致性檢測的基線節點,此項為非必選。如果選擇“開啟節點基線設置”,則需要在右側已選節點列表中選擇一個節點作為基線節點。 |
| 輸入節點密碼 | 輸入創建該節點時設置的密碼。注意:選擇多個節點需要保證所有節點的密碼一致,節點密碼只有一個輸入框,如不一致會檢測失敗。 |
5. 開始檢測:
1) 點擊【開始檢測】,啟動檢測,也可以點擊【檢測歷史】查看節點的歷史檢測報告。
2) 啟動之后,進行檢測確認。確認之后,跳入檢測歷史頁面進行檢測結果查看。