操作場景
DLI可以查詢存儲在OBS中的數據,本節操作介紹使用DLI提交Spark Jar進行實時計算的操作步驟。
操作流程
使用DLI提交Spark作業進行實時計算。基本流程如下:
1.上傳數據至OBS
2.創建隊列
3.創建程序包
4.提交Spark作業
上傳數據至OBS
開發Spark Jar作業程序,編譯并打包為“spark-examples.jar”。參考以下操作步驟上傳該作業程序。
提交Spark作業之前,需要在OBS中上傳數據文件。
1.登錄管理控制臺
2.在服務列表中,單擊“存儲”中的“對象存儲服務OBS”,進入OBS管理控制臺頁面。
3.創建桶,這里以桶名“dli-test-obs01”為例。
a. 單擊“創建桶”。
b. 進入“創建桶”頁面,輸入“桶名稱”。其他參數保持默認值或根據需要選擇。
說明創建OBS桶時,需要選擇與DLI管理控制臺相同的區域,不可跨區域執行操作。
c. 單擊“立即創建”。
4.單擊所建桶“dli-test-obs01”,進入“對象”頁面。
5.選擇左側列表中的“對象”,選擇“上傳對象”,將需要上傳的文件,例如“spark-examples.jar”上傳到指定目錄,單擊“確定”。
例如,文件上傳成功后,待分析的文件路徑為“obs://dli-test-obs01/spark-examples.jar”。
說明
關于OBS管理控制臺更多操作請參考《對象存儲服務控制臺指南》。
OBS上傳文件指導,請參見《OBS工具指南》。
針對大文件場景,由于OBS管理控制臺對文件大小和數量限制較多,所以推薦使用OBS工具上傳大文件,如OBS Browser+上傳。
OBS Browser+是一個比較常用的圖形化工具,,支持完善的桶管理和對象管理操作。推薦使用此工具創建桶或上傳對象。
創建隊列
第一次提交Spark作業,需要先創建隊列,例如創建名為“sparktest”的隊列,隊列類型選擇為“通用隊列”。
1.登錄DLI管理控制臺。
2.在DLI管理控制臺的左側導航欄中,選擇“資源管理 > 隊列管理”。
3.單擊“隊列管理”頁面右上角“創建隊列”進行創建隊列。
4.創建名為“sparktest”的隊列,隊列類型選擇為“通用隊列”。創建隊列詳細介紹請參考《數據湖探索用戶指南》>《創建隊列》。
5.單擊“立即創建”,完成隊列創建。
創建程序包
提交Spark作業之前需要創建程序包,例如“spark-examples.jar”。
1.在管理控制臺左側,單擊“數據管理”>“程序包管理”。
2.在“程序包管理”頁面,單擊右上角“創建”可創建程序包。
3.在“創建程序包”對話框,“包類型”選擇“JAR”,“OBS路徑”選擇步驟2:上傳數據至OBS中“spark-examples.jar”的包路徑,“分組設置”參數選擇為“不分組”。
4.單擊“確定”,完成創建程序包。
程序包創建成功后,您可以在“程序包管理”頁面查看和選擇使用對應的包。
創建程序包詳細介紹請參考《數據湖探索用戶指南》>《創建程序包》。
提交Spark作業
1.在DLI管理控制臺,單擊左側導航欄中的“作業管理”>“Spark作業”,單擊“創建作業”,進入創建Spark作業頁面。
2.在Spark作業編輯頁面中,“所屬隊列”選擇步驟4:創建隊列中創建的隊列,“應用程序”選擇步驟5:創建程序包創建的程序包。
其他參數請參考《數據湖探索用戶指南》>《創建Spark作業》中關于Spark作業編輯頁面的說明。
3.單擊Spark作業編輯頁面右上方“執行”,閱讀并同意隱私協議,單擊“確定”。提交作業,頁面顯示“作業提交成功”。
4.(可選)可到“作業管理”>“Spark作業”頁面查看提交作業的狀態及日志。

說明在DLI管理控制臺第一次單擊“執行”操作時,需要閱讀隱私協議,同意確定后,后續操作將不會再提示。