前置條件
完成訓練數據集準備,完成存儲配置準備(ZOS/HPFS),詳見我的數據集。
如果預置模型不滿足開發要求,需要基于自有模型,需要完成模型文件準備,詳見模型管理。
如果預置鏡像不滿足開發要求,需要基于自有鏡像,需要完成鏡像文件準備,詳見我的鏡像。
如果需要使用代碼包,需要完成代碼包準備,詳見我的代碼包。
創建訓練任務
登錄智算服務平臺。
創建訓練任務入口:
入口一:在左側菜單選擇“模型定制”-“訓練任務”,點擊“新建任務”,進入任務創建頁面。
入口二:在左側菜單選擇“模型定制”-“開發機”,點擊開發機列表的“開始訓練”。
| 參數類型 | 參數名 | 說明 |
|---|---|---|
基本信息 | 任務名稱 | 必填,訓練任務名稱。 |
描述 | 非必填,輸入128個字符的描述。 | |
數據集配置 | 訓練數據集 | 最多可添加10個,選擇基礎數據集或者標注數據集。 |
模型配置 | 模型來源 | 我的模型:最多5個,將模型管理中的模型文件掛載到容器內路徑。 預置模型:最多5個,將預置模型掛載到容器內路徑。 |
模型文件 | 選擇我的模型具體的模型文件及版本。 選擇預置模型文件及具體版本。 | |
存儲配置 | ZOS對象存儲 | 最多選擇5個,如果沒有提前創建,可以點擊“去創建對象存儲”完成創建。 |
HPFS并行文件系統 | 最多選擇5個,如果沒有提前創建,可以點擊“去創建HPFS”完成創建。 | |
環境配置 | 文件目錄 | 平臺可持久化的掛載目錄,后續可以在該目錄下讀寫文件,是用戶間隔離的。 |
訓練代碼 | 非必填,可以選擇目標代碼包。 | |
啟動命令 | 必填。如果您的代碼包是文件夾,則需要填寫python xx.py,其中xx.py是您的訓練代碼;如果您的代碼中有啟動參數,可以直接填寫;若您使用的代碼包是壓縮包文件,需要在啟動命令中添加解壓命令zip。 | |
資源配置 | 鏡像來源 | 支持選擇系統預置鏡像、自定義鏡像、共享容器鏡像和他人分享鏡像。 |
集群 | 支持公共集群和專屬集群兩種類型,其中專屬集群需要提前購買。 | |
隊列 | 選擇目標隊列,展示當前總資源及使用情況。 | |
資源規格 | 選擇當前任務所需要的資源規格。 | |
訓練模式 | 默認為DDP(分布式訓練),如果在單一計算設備上進行機器學習模型訓練選擇單機訓練。 | |
容錯訓練 | 啟動容錯訓練后,如果訓練過程中節點異常,系統會自動重新啟用一個新的節點來替換異常節點,從上一個checkpoint開始繼續訓練。 | |
高級配置 | 斷點續訓 | 開啟容錯后,如因為節點故障導致訓練任務異常,會封鎖故障節點,重新調度訓練任務。 |
算力健康檢查 | 檢查昇騰機器節點的顯卡狀態、顯卡通信狀態和交換機狀態,以及帶寬的壓測值。可訓練任務詳情頁查看具體信息。 |
訓練任務管理
訓練任務創建完成后進入“資源準備中”-“排隊中”-“環境準備中”‘“開始運行”-“運行完成”,在這個過程中如果發生任務配置錯誤、耗時過長或者資源沖突時,可以點擊“停止”和“刪除”。
復制任務:如果已經創建了一個訓練任務可以在列表中點擊“復制”,復用該任務的配置和輸入參數創建一個新的訓練任務。
任務詳情:支持查看當前訓練任務的配置參數(基礎信息、數據集、掛載模型、節點信息)、事件、日志(節點維度)、監控(GPU使用率、CPU使用率內存、網絡IO等)、查看Tensorboard和算力檢查。任務每次啟動都會生成一個新的實例,這里叫做一次運行記錄。一次運行記錄顯示了實例ID、實例最終狀態、啟動時間。
設置告警
配置告警發送事件:通過告警設置可以監控訓練任務狀態任務異常、任務斷點續訓和任務運行完成。默認這三類事件都不開啟告警。
配置告警發送方式:消息會自動發送到您天翼云賬號對應的手機號和郵箱內,可前往賬號中心進行設置或修改。
后續操作
保存至模型管理:將當前訓練任務實例中的模型文件保存到模型倉庫中統一管理,模型倉庫中會新增一個來源為“訓練任務”的模型。后續可以基于此模型進行開發機、訓練任務和服務部署任務。