主賬號使用流程
更新時間 2025-05-08 09:12:45
最近更新時間: 2025-05-08 09:12:45
分享文章
本文介紹主賬號使用流程。
主賬號使用主要聚焦運維管理和資源創建全流程,根據使用資源不同,分為兩類使用方式:標準資源組、擴展資源組,資源組差異詳情請參考:資源組
標準資源組使用流程
擴展資源組使用流程
如上運維及資源組操作完成后,可參考子賬號使用流程完成訓練任務創建及運行。
使用流程說明
| 流程 | 子任務 | 說明 | 詳細指導 |
|---|---|---|---|
| 注冊賬號 | 賬號注冊 | 首次登錄一體化計算加速平臺·異構計算平臺需要先完成主賬號注冊。 | 注冊賬號 |
| 注冊賬號 | 會員實名認證(可選) | 子賬號無法進行運維管理,僅可創建和管理訓練鏡像,創建和管理任務,查看訓練任務監控指標。 | 會員服務-實名認證 |
| 注冊賬號 | 創建子賬號 | 子賬號無法進行運維管理,僅可創建和管理訓練鏡像,創建和管理任務,查看訓練任務監控指標。 | 創建子賬號 |
| 創建資源組 | 創建標準資源組 | 標準資源組提供基于GPU物理機和GPU云主機的集群化開通與管理。 | 創建標準資源組 |
| 創建資源組 | 創建擴展資源組 | 擴展資源組提供全托管和高可用控制面板的標準Kubernetes集群服務。 | 創建擴展資源組 |
| 創建資源組 | 創建/納管節點 | 資源組創建完成后需要創建/納管節點用于承載任務所需算力運行。 | 創建/納管節點 |
| 創建資源組 | 創建隊列 | 隊列是資源配額、以及任務運行的隔離單元,在運行訓練或推理任務時,通過將任務綁定到隊列進行資源的排隊和使用申請。 | 創建隊列 |
| 數據準備 | 創建存儲掛載 | 通過存儲掛載,可支持用戶將ZOS或HPFS實例批量掛載到相應的節點上,并且管理掛載目錄。 | 創建存儲掛載 |
| 數據準備 | 創建 k8s共享存儲 | 可對訓練中用到海量數據的進行準備與管理,用戶實現動態彈性調度,支持多種數據來源,支持開啟數據加速訪問。 | 創建 k8s 共享存儲 |
| 創建工作空間 | 創建工作空間 | 工作空間可對等于項目,不同項目可進行資源隔離。 | 創建工作空間 |
| 創建工作空間 | 關聯資源 | 在創建工作空間時需要關聯隊列資源。 | 關聯資源 |
| 創建工作空間 | 授權成員 | 工作空間需要授權成員,被授權的項目成員(開發人員)可以分享AI資產(數據集、鏡像、訓練任務),進行協作。 | 授權成員 |
| 可視化運維 | 計算/存儲、網絡監控 | 一體化計算加速平臺·異構計算平臺為用戶提供資源監控(資源組監控、節點監控)、HPFS監控、RoCE監控、任務監控,多種維度查看監控指標的變化情況。 | 計算/存儲、網絡監控 |
| 可視化運維 | 一鍵檢測 | 一鍵診斷功能能夠幫助本平臺資源組管理的節點、網絡等主要資源進行有效的檢測和運維。 | 一鍵檢測 |