模型訓練過程需要不斷迭代和優化參數設置,尋找最優的模型結構和權重。一體化計算加速平臺·異構計算訓練模塊支持創建自定義訓練、管理自定義訓練和查看訓練詳情功能,以更方便地尋找到最優的結果。
前提條件
訓練任務運行需要消耗資源,請確保賬戶內資源未被凍結(未欠費)。
創建自定義訓練任務前,請確定該工作空間關聯的隊列可用(未鎖定)。
用于訓練的數據、模型等已全部上傳至存儲。具體上傳方法請參見如何上傳數據到ZOS存儲和如何上傳數據到HPFS存儲并使用。
如需保存訓練輸出數據需建立單獨的文件夾用于訓練日志保存。
操作步驟
進入新建訓練任務頁面。
設置自定義訓練任務參數:填寫訓練任務的基本信息、環境配置、資源配置、存儲配置和高級配置。
保存并運行自定義訓練任務。
進入新建訓練任務頁面
登錄一體化計算加速平臺·異構計算控制臺。
進入對應工作空間。
在左側導航欄中,選擇“訓練>自定義訓練”進入訓練任務列表。
單擊“新建訓練任務”,進入“新建訓練任務”頁面。
設置自定義訓練任務參數
新建訓練任務時需設置的基本信息、環境配置、資源配置、存儲配置和高級配置如下:
基本信息
| 參數名稱 | 參數說明 |
|---|---|
| 任務名稱 | 必填,訓練任務的名稱。 支持1-20個字符,可以包含中英文、數字、下劃線(_),不能以下劃線為開頭。 |
| 所屬隊列 | 必選,選擇運行訓練任務的隊列。創建和管理隊列參見隊列。 |
| 優先級 | 可設置訓練任務的優先級,取值為“低、中、高”,默認為“低”。 |
| 可見范圍 | 選擇哪些賬號可見該訓練任務。
|
| 任務描述 | 選填,訓練任務的簡介,便于在訓練任務列表快速了解訓練任務信息。支持1~300字符。 |
環境配置
| 參數名稱 | 參數說明 |
|---|---|
| 鏡像來源 | 必選,選擇預置鏡像或已上傳自定義鏡像中的鏡像名稱。詳見鏡像倉庫。 |
| 啟動命令 | 必填,指定代碼的執行命令。 訓練命令必須有程序啟動指令,例如:/bin/bash -c;python -e。 支持一次輸入多條命令,多條命令需以換行符分隔。 |
| 訓練框架 | 必選,選擇預置框架,目前支持PyTorch和TensorFlow PS訓練框架。 |
| 環境變量 | 將被注入到訓練容器中的環境變量。可配置多個。平臺預置的環境變量請詳見管理訓練容器環境變量。 說明:為保證數據安全,請勿輸入敏感信息,例如明文密碼。 |
資源配置
| 參數名稱 | 參數說明 |
|---|---|
| 資源配置 | 必填,配置訓練任務可用的資源。應用PyTorch框架時需要配置Worker節點資源;應用TensorFlow框架時需要配置Worker節點、PS節點的資源。
|
存儲配置
| 參數名稱 | 參數說明 |
|---|---|
| 存儲 | 添加存儲路徑,支持ZOS共享存儲、HPFS共享存儲、數據集、本地存儲共4類。訓練任務啟動時,系統將自動獲取路徑中的存儲數據和算法到訓練運行容器中。訓練結果也支持存儲至存儲桶中。 最多添加10個存儲掛載路徑,多個存儲路徑的容器內訪問路徑不能相同。存儲設置參見數據準備和數據集。 |
| 永久保存日志 | 支持選擇是否開啟“永久保存日志”開關。
|
| 訓練日志路徑 | 打開“永久保存日志”開關時,必須配置“訓練日志路徑”,用于存放訓練任務產生的日志文件。 選擇ZOS共享存儲名稱和具體目錄。建議選擇一個空的ZOS文件目錄存放日志文件,同時需要ZOS文件目錄的讀寫權限。 |
高級配置
| 參數名稱 | 參數說明 |
|---|---|
| 訓練失敗后操作 | 必填,可選擇訓練任務失敗后自動重啟或停滯并保留日志,默認為自動重啟。 自動重啟:從斷點接續訓練,設置斷點續訓方法參見斷點續訓練,但實例內歷史失敗日志會丟失。如查看需打開永久保存日志開關,將訓練日志轉存至ZOS。 |
| TensorBoard | 選擇是否采集Tensorboard日志。開啟后需要指定日志讀取路徑。 |
保存并運行自定義訓練任務
完成參數設置后,單擊“保存任務”。保存成功后跳轉回訓練任務列表頁面,但訓練任務保存后不會自動執行訓練。
在訓練任務列表操作欄單擊“運行”,訓練任務在成功調度所需資源后開始執行。
每單擊1次“運行”即啟動1次訓練任務執行,支持多次運行。開始運行后狀態變為“運行中”,當隊列內資源不足時訓練任務狀態為“排隊中”。訓練任務狀態詳見訓練任務生命周期。