服務器檢測
更新時間 2025-01-15 09:56:55
最近更新時間: 2025-01-15 09:56:55
分享文章
服務器檢測提供針對資源組的GPU、NPU節點的檢測能力,主要檢測節點的關鍵軟硬件是否安裝,關鍵配置是否開啟,參與訓練的多節點配置是否一致,配置是否符合用戶設定等方面。
使用前提
當前用戶是主賬號。
操作步驟
- 選擇檢測類型:
- 點擊“服務器檢測”菜單,進入服務器檢測任務新建頁。
- 選擇“Nvidia系列”或者"昇騰系列"。
- 選擇檢測內容:
- 節點通用檢測項:該項為系統內置檢測項,用來判斷單個節點的關鍵軟件和配置是否符合預期,用戶可以根據自己的業務需求進行檢測項的選擇,檢測結果為“通過”或“不通過”。
- 多節點一致性檢測項:系統內置檢測項,用來判斷參與訓練的多節點關鍵配置是否一致。主要分為兩種場景:
a.第一種場景:用戶選擇其中一個節點的配置作為基線,其他節點均和基線節點進行對比,如果結果一致,則檢測結果為“通過”,不一致,則檢測結果為“不通過”。
b.第二種場景:用戶沒有設置基線節點,則將對所有節點的安裝配置結果進行統計,將每項檢測的所有檢測結果詳細列出,結果“不涉及”是否通過。 - 節點可配置檢測項:系統內置檢測項和用戶自定義檢測參數。針對具體檢測項,用戶可自行定義檢測標準,檢測結果為“通過”或“不通過”。
- 選擇檢測目標:
- 資源組:根據選擇的系列(Nvidia或昇騰)列出相關資源組供用戶選擇(單選)。
- 節點:左側選擇資源組內單個或多個節點作為目標,將其移動到右側成為已選節點。
- 開啟基線節點設置:選擇一個節點作為多節點一致性檢測的基線節點,此項為非必選。如果選擇“開啟節點基線設置”,則需要在右側已選節點列表中選擇一個節點作為基線節點。
- 輸入節點密碼:輸入創建該節點時設置的密碼。注意:選擇多個節點需要保證所有節點的密碼一致,節點密碼只有一個輸入框,如不一致會檢測失敗。
- 開始檢測:
- 點擊“開始檢測”,啟動檢測,也可以點擊檢測歷史查看節點的歷史檢測報告。
- 啟動之后,進行檢測確認。確認之后,跳入檢測歷史頁面進行檢測結果查看。