查看DLI隊列負載
場景概述
如果需要確認DLI隊列的運行狀態,決定是否運行更多的作業時需要查看隊列負載。
操作步驟
- 在控制臺搜索“云監控服務 CES”。
- 進入CES后,在頁面左側“云服務監控”列表中,單擊“數據湖探索”。
- 選擇隊列進行查看。
如何判斷當前DLI隊列中的作業是否有積壓?
問題描述
需要查看DLI的隊列中作業狀態為“提交中”和“運行中”的作業數,判斷當前隊列中的作業是否有積壓。
解決方案
可以通過“云監控服務 CES”來查看DLI隊列中不同狀態的作業情況,具體操作步驟如下:
-
在控制臺搜索“云監控服務 CES”,進入云監控服務控制臺。
-
在左側導航欄選擇“云服務監控 > 數據湖探索”,進入到云服務監控頁面。
-
在云服務監控頁面,“名稱”列對應隊列名稱,單擊對應隊列名稱,進入到隊列監控頁面。
-
在隊列監控頁面,分別查看以下指標查看當前隊列的作業運行情況。
a.“提交中作業數”:展示當前隊列中狀態為“提交中”的作業數量。
b.“運行中作業數”:展示當前隊列中狀態為“運行中”的作業數量。
c.“已完成作業數”:展示當前隊列中狀態為“已成功”的作業數量。
如何將老版本的Spark隊列切換成通用型隊列
當前DLI服務包括“SQL隊列”和“通用隊列”兩種隊列類型。 其中,“SQL隊列”用于運行SQL作業,“通用隊列”兼容老版本的Spark隊列,用于運行Spark作業和Flink作業。
通過以下步驟,可以將老版本的“Spark隊列”轉換為新的“通用隊列”。
- 重新購買“通用隊列”。
- 將在舊的“Spark隊列”中的作業遷移到新的“通用型隊列”中,即在提交Spark作業時指定新的隊列。
- 釋放舊的“Spark隊列”,即刪除或退訂隊列。
為什么云監控CES服務看不到DLI隊列的資源運行情況?
DLI隊列在沒有作業運行時沒有資源和流量的使用,該場景下在CES則不會顯示該隊列的運行情況。
購買了64CU的隊列資源,運行Spark作業時如何分配?
在DLI中,64CU=64core256G。
在對應的Spark作業中,如果Driver占用了4core16G,那么Executor能占用的就是60core 240G。
創建擴容任務時 ,提示Queue plans create failed. The plan xxx target cu is out of quota報錯
場景概述
創建彈性擴縮容定時任務時界面報錯,提示信息為:Queue plans create failed. The plan xxx target cu is out of quota。
解決方法
該問題是當前帳號的CU配額不夠導致,需要申請擴大配額。
在default隊列執行DLI SQL失敗,上報超時異常
問題現象
使用default隊列提交SQL作業,作業運行異常,排查作業日志顯示Execution Timeout異常。異常日志參考如下:
[ERROR] Execute DLI SQL failed. Please contact DLI service.
[ERROR] Error message:Execution Timeout
問題原因
default隊列是系統預置的默認公共隊列,主要用來體驗產品功能。當多個用戶通過該隊列提交作業時,容易發生流控,從而導致作業提交失敗。
解決方案
建議不要使用default隊列提交作業,可以在DLI控制臺新購買SQL隊列來提交作業。具體步驟如下:
- 在DLI管理控制臺的左側導航欄中,選擇“隊列管理”。
- 單擊“隊列管理”頁面右上角“購買隊列”進行創建隊列。
- 在“購買隊列”頁面,選擇對應參數。注意“隊列類型”選擇“SQL隊列”。
- 使用新創建的隊列重新提交SQL作業。