查看自定義訓練任務詳情
更新時間 2025-01-10 11:39:32
最近更新時間: 2025-01-10 11:39:32
分享文章
一體化計算加速平臺·異構計算可查看訓練任務及其運行實例的基礎信息和運行信息等,有助于更全面地了解訓練任務信息。
操作步驟
- 登錄一體化計算加速平臺·異構計算控制臺。
- 進入對應工作空間。
- 在左側導航欄中,選擇“訓練>自定義訓練”進入訓練任務列表。
- 在訓練任務列表中,單擊訓練任務名稱,進入自定義訓練任務詳情頁。
- 在任務詳情頁面可查看任務信息和運行情況。
任務信息
可查看任務的基本信息、環境、資源、存儲配置等信息。此處顯示最近一次編輯后的任務信息。
運行情況
- 查看每一次訓練任務運行記錄的運行ID、創建來源、所屬隊列、狀態、運行時長、訓練框架、開始時間信息。訓練任務狀態詳見訓練任務生命周期。
- 點擊“運行ID”查看運行記錄的詳情,包括運行記錄的基本信息、實例、日志、TimeLine、監控和事件通知。
| 運行記錄詳情 | 說明 |
|---|---|
| 基本信息 | 查看該運行記錄的任務名稱、ID、描述、所屬隊列、鏡像、存儲、訓練框架、啟動命令、環境變量、資源配置、Tensorboard、運行人等信息。 |
| 實例 | 查看該運行記錄下占用的實例信息,包括角色、實例名稱、狀態、重啟次數、實例IP、Host IP、運行時長、開始時間、查看日志等。 |
| 日志 | 選擇實例,查看對應實例的標準輸出日志。 注意:運行記錄停止后日志消失,請在停止前保存所需日志數據。如果需要長期查看日志數據,需在創建訓練任務時開啟永久保存日志開關。 |
| TimeLine | 查看該運行記錄的時間線。 |
| 監控 | 選擇實例,查看對應實例的監控信息。 |
| 事件通知 | 傳遞資源變化信息,被通知的事件為系統事件(包括任務失敗等變化信息),同時,用戶也可點擊“創建告警規則”,跳轉到云監控系統,設置自定義告警事件通知信息。 |
- 對運行記錄進行停止、刪除操作。停止操作后訓練任務釋放使用的資源,但停止操作保存運行記錄。