數據湖探索監控指標說明及查看指導
更新時間 2024-04-10 18:24:04
最近更新時間: 2024-04-10 18:24:04
分享文章
本章節主要介紹數據湖探索監控指標說明及查看指導。
功能說明
本章節定義了數據湖探索服務上報云監控的監控指標的命名空間,監控指標列表和維度定義,用戶可以通過云監控服務提供的管理控制臺或API接口來檢索數據湖探索服務產生的監控指標和告警信息。
命名空間
SYS.DLI
監控指標
數據湖探索服務支持的監控指標
| 指標ID | 指標名稱 | 指標含義 | 取值范圍 | 測量對象 | 監控周期(原始指標) |
|---|---|---|---|---|---|
| queue_cu_num | 隊列CU使用量 | 展示用戶隊列申請的CU數 | ≥0 | 隊列 | 5分鐘 |
| queue_job_launching_num | 提交中作業數 | 展示用戶隊列中狀態為提交中的作業數。 | ≥0 | 隊列 | 5分鐘 |
| queue_job_running_num | 運行中作業數 | 展示用戶隊列中狀態為運行中的作業數。 | ≥0 | 隊列 | 5分鐘 |
| queue_job_succeed_num | 已完成作業數 | 展示用戶隊列中狀態為已完成的作業數。 | ≥0 | 隊列 | 5分鐘 |
| queue_job_failed_num | 已失敗作業數 | 展示用戶隊列中狀態為已失敗的作業數。 | ≥0 | 隊列 | 5分鐘 |
| queue_job_cancelled_num | 已取消作業數 | 展示用戶隊列中狀態為已取消的作業數。 | ≥0 | 隊列 | 5分鐘 |
| queue_cpu_usage | 隊列CPU使用率 | 展示用戶隊列的CPU使用率。 | 0~100 | 隊列 | 5分鐘 |
| queue_disk_usage | 隊列磁盤使用率 | 展示用戶隊列的磁盤使用率。 | 0~100 | 隊列 | 5分鐘 |
| queue_disk_used | 隊列磁盤使用率最大值 | 展示用戶隊列的磁盤使用率的最大值。 | 0~100 | 隊列 | 5分鐘 |
| queue_mem_usage | 隊列內存使用率 | 展示用戶隊列的內存使用率。 | 0~100 | 隊列 | 5分鐘 |
| queue_mem_used | 隊列內存使用量 | 展示用戶隊列的內存使用量。 | ≥0 | 隊列 | 5分鐘 |
| flink_read_records_per_second | Flink作業數據輸入速率 | 展示用戶Flink作業的數據輸入速率,供監控和調試使用。 | ≥0 | Flink作業 | 10秒鐘 |
| flink_write_records_per_second | Flink作業數據輸出速率 | 展示用戶Flink作業的數據輸出速率,供監控和調試使用。 | ≥0 | Flink作業 | 10秒鐘 |
| flink_read_records_total | Flink作業數據輸入總數 | 展示用戶Flink作業的數據輸入總數,供監控和調試使用。 | ≥0 | Flink作業 | 10秒鐘 |
| flink_write_records_total | Flink作業數據輸出總數 | 展示用戶Flink作業的數據輸出總數,供監控和調試使用。 | ≥0 | Flink作業 | 10秒鐘 |
| flink_read_bytes_per_second | Flink作業字節輸入速率 | 展示用戶Flink作業每秒輸入的字節數。 | ≥0 | Flink作業 | 10秒鐘 |
| flink_write_bytes_per_second | Flink作業字節輸出速率 | 展示用戶Flink作業每秒輸出的字節數。 | ≥0 | Flink作業 | 10秒鐘 |
| flink_read_bytes_total | Flink作業字節輸入總數 | 展示用戶Flink作業字節的輸入總數。 | ≥0 | Flink作業 | 10秒鐘 |
| flink_write_bytes_total | Flink作業字節輸出總數 | 展示用戶Flink作業字節的輸出總數。 | ≥0 | Flink作業 | 10秒鐘 |
| flink_cpu_usage | Flink作業CPU使用率 | 展示用戶Flink作業的CPU使用率。 | 0~100 | Flink作業 | 10秒鐘 |
| flink_mem_usage | Flink作業內存使用率 | 展示用戶Flink作業的內存使用率。 | 0~100 | Flink作業 | 10秒鐘 |
| flink_max_op_latency | Flink作業最大算子延遲 | 展示用戶Flink作業的最大算子延遲時間,單位ms。 | ≥0 | Flink作業 | 10秒鐘 |
| flink_max_op_backpressure_level | Flink作業最大算子反壓 | 展示用戶Flink作業的最大算子反壓值,數值越大,反壓越嚴重。 0:表示OK 50:表示Low 100:表示High | 0~100 | Flink作業 | 10秒鐘 |
維度
表1-2 維度
| Key | Value |
|---|---|
| queue_id | 隊列 |
| flink_job_id | Flink作業 |
通過云監控服務CES查看DLI監控指標
- 在管理控制臺搜索“云監控服務”。
- 進入云監控服務的控制臺后,在左側列表中,單擊“數據湖探索”。
- 選擇隊列進行查看相關監控信息。