創建作業后,用戶可以通過查看作業詳情,了解如下信息。
- 查看作業詳情
- 查看作業監控
- 查看作業任務列表
- 查看作業執行計劃
- 查看提交作業日志
- 查看作業運行日志
查看作業詳情
用戶作業創建完成并保存后,用戶可以單擊作業名查看作業的詳細信息,包括作業的SQL語句和參數設置信息,如果是jar作業只可以看到參數設置信息。
1.在DLI管理控制臺的左側導航欄中,單擊“作業管理”>“Flink作業”,進入Flink作業管理頁面。
2.單擊需要查看的作業名稱,進入“作業詳情”頁面。
在“作業詳情”頁簽,用戶可以查看作業的SQL語句、參數設置信息。
以某個Flink SQL作業為例進行說明。
詳見下表:參數說明
| 參數名稱 | 參數說明 |
|---|---|
| 類型 | 作業類型,如Flink SQL作業。 |
| 名稱 | Flink作業名稱。 |
| 描述 | Flink作業描述信息。 |
| 狀態 | Flink作業運行狀態。 |
| 運行模式 | 如果作業所屬隊列是共享隊列,則作業的運行模式是共享模式。 如果作業所屬隊列是自定義的獨享隊列,則作業的運行模式是獨享模式。 |
| Flink版本 | 作業所選的Flink作業的版本。 |
| 優化參數 | 作業添加了自定義參數配置時顯示該參數。 |
| CU數量 | 作業配置的CU數量。 |
| 管理單元 | 作業配置的管理單元CU數量。 |
| 并行數 | 作業配置的同時運行Flink作業的任務數。 |
| 單TM所占CU數 | 作業配置的每個TaskManager所占CU數量。 |
| 單TM Slot數 | 作業配置的每個TaskManager Slot數量。 |
| OBS桶 | 作業配置了OBS桶顯示。當勾選“開啟Checkpoint”和“保存作業日志”參數后,用于保存Checkpoint和作業運行日志。 |
| 保存作業日志 | 開啟或關閉。 |
| 作業異常告警 | 開啟或關閉。 |
| SMN主題 | 作業配置的SMN主題名稱。當作業勾選了“作業異常告警”參數時顯示。 |
| 異常自動重啟 | 開啟或關閉。 |
| 異常重試最大次數 | 異常重試最大次數為無限時顯示為“無限”,其余為設置的具體值。 |
| 保存點路徑 | 保存點的OBS存儲路徑。 |
| 開啟Checkpoint | 開啟或關閉。 |
| Checkpoint間隔 | 將作業運行的中間結果保存到OBS的間隔時間,單位為秒。 |
| Checkpoint模式 | Checkpoint模式: at_least_once:事件至少被處理一次 exactly_once:事件僅被處理一次 |
| 空閑狀態保留時長 | 用于清除GroupBy或Window經過最大保留時間后仍未更新的中間狀態。 |
| 臟數據策略 | 作業出現臟數據時的處理策略。作業配置臟數據策略時顯示該參數。 忽略。 拋出異常。 保存。 |
| 臟數據轉儲地址 | “臟數據策略”選擇“保存”時,保存臟數據的OBS路徑。 |
| 創建時間 | 作業創建的具體時間。 |
| 更新時間 | 作業最近一次更新的時間。 |
查看作業監控
用戶可以通過云監控服務(CES)查看作業數據輸入輸出的詳細信息。
1.在DLI管理控制臺的左側導航欄中,單擊“作業管理”>“Flink作業”,進入Flink作業管理頁面。
2.單擊需要查看的作業名稱,進入“作業詳情”頁面。
單擊頁面右上角的“作業監控”,將跳轉至云監控服務(CES)。
Flink 作業包含如下監控指標。
| 指標名稱 | 說明 |
|---|---|
| Flink作業數據輸入速率 | 展示用戶Flink作業的數據輸入速率,供監控和調試使用。單位:條/秒。 |
| Flink作業數據輸出速率 | 展示用戶Flink作業的數據輸出速率,供監控和調試使用。單位:條/秒。 |
| Flink作業數據輸入總數 | 展示用戶Flink作業的數據輸入總數,供監控和調試使用。單位:條。 |
| Flink作業數據輸出總數 | 展示用戶Flink作業的數據輸出總數,供監控和調試使用。單位:條。 |
| Flink作業字節輸入速率 | 展示用戶Flink作業每秒輸入的字節數。單位:字節/秒。 |
| Flink作業字節輸出速率 | 展示用戶Flink作業每秒輸出的字節數。單位:字節/秒。 |
| Flink作業字節輸入總數 | 展示用戶Flink作業字節的輸入總數。單位:字節。 |
| Flink作業字節輸出總數 | 展示用戶Flink作業字節的輸出總數。單位:字節。 |
| Flink作業CPU使用率 | 展示用戶Flink作業的CPU使用率。單位:%。 |
| Flink作業內存使用率 | 展示用戶Flink作業的內存使用率。單位:%。 |
| Flink作業最大算子延遲 | 展示用戶Flink作業的最大算子延遲時間,單位ms。 |
| Flink作業最大算子反壓 | 展示用戶Flink作業的最大算子反壓值,數值越大,反壓越嚴重。 0:表示OK 50:表示Low 100:表示High |
查看作業任務列表
用戶可以查看作業運行時每個任務的詳細信息,例如任務的開始時間、收發字節數和運行時長等。
說明如果數據為零,表示沒有從數據源接收到數據。
1.在DLI管理控制臺的左側導航欄中,單擊“作業管理”>“Flink作業”,進入Flink作業管理頁面。
2.單擊需要查看的作業名稱,進入“作業詳情”頁面。
3.在“任務列表”頁簽,可以查看任務的節點信息。
查看算子任務列表,具體參見下表:
| 參數 | 說明 |
|---|---|
| 名稱 | 算子名稱。 |
| 持續時間 | 算子運行的持續時間。 |
| 最大并行數 | 算子中并行的Task的個數。 |
| 任務 | 算子的任務有以下幾種: 紅色數字表示已失敗的Task個數。 淺灰色數字表示已取消的Task個數。 黃色數字表示取消中的Task個數。 綠色數字表示已完成的Task個數。 藍色數字表示運行中的Task個數。 天藍色數字表示部署中的Task個數。 深灰色數字表示排隊中的Task個數。 |
| 狀態 | 算子任務對應的狀態。 |
| 反壓狀態 | 算子的工作負荷狀態。包含如下幾種狀態: OK:表示工作負荷正常。 LOW:表示工作負荷略高。DLI處理數據的速度比較快。 HIGH:表示工作負荷高。源端輸入數據的速度比較慢。 |
| 時延 | 指事件從源端算子到達本算子的過程中消耗的時間,單位為毫秒(ms)。 |
| 發送的記錄數 | 算子發送數據的記錄。 |
| 發送的字節數 | 算子發送的字節數。 |
| 接受的字節數 | 算子接收的字節數。 |
| 接受的記錄數 | 算子收到數據的記錄。 |
| 開始時間 | 算子運行開始時間。 |
| 結束時間 | 算子運行結束時間。 |
查看作業執行計劃
用戶通過查看執行計劃了解到運行中的作業的算子流向。
1.在DLI管理控制臺的左側導航欄中,單擊“作業管理”>“Flink作業”,進入Flink作業管理頁面。
2.單擊需要查看的作業名稱,進入“作業詳情”頁面。
3.單擊“執行計劃”,在“執行計劃”頁簽可以查看作業的算子流向。
單擊對應的節點,在頁面右側顯示對應的信息。
- 滾動鼠標滾輪可對流圖進行縮放查看。
- 流圖展示當前運行作業的實時算子流圖信息。
查看提交作業日志
用戶可以通過查看提交日志排查提交作業異常的故障。
1.在DLI管理控制臺的左側導航欄中,單擊“作業管理”>“Flink作業”,進入Flink作業管理頁面。
2.單擊需要查看的作業名稱,進入“作業詳情”頁面。
3.在“提交日志”頁簽,可以查看提交作業的過程信息。
查看作業運行日志
用戶可以通過查看運行日志排查作業運行異常的故障。
1.在DLI管理控制臺的左側導航欄中,單擊“作業管理”>“Flink作業”,進入Flink作業管理頁面。
2.單擊需要查看的作業名稱,進入“作業詳情”頁面。
3.在“運行日志”頁簽,可以查看運行中作業的JobManager和TaskManager信息。
JobManager和TaskManager信息每分鐘刷新一次,默認展示最近一分鐘的運行日志。
如果作業配置了保存作業日志的OBS桶,更多歷史日志信息可以到保存日志的OBS桶中下載查看。
如果作業沒有運行,則無法查看TaskManager信息。