開發一個DLI Spark作業
更新時間 2024-10-10 11:29:17
最近更新時間: 2024-10-10 11:29:17
分享文章
本章節主要介紹DataArts Studio的開發一個DLI Spark作業流程。
在本章節您可以學習到數據開發模塊資源管理、作業編輯等功能。
場景說明
用戶在使用DLI服務時,大部分時間會使用SQL對數據進行分析處理,有時候處理的邏輯特別復雜,無法通過SQL處理,那么可以通過Spark作業進行分析處理。本章節通過一個例子演示如何在數據開發模塊中提交一個Spark作業。
操作流程如下:
- 創建DLI集群,通過DLI集群的物理資源來運行Spark作業。
- 獲取Spark作業的演示JAR包,并在數據開發模塊中關聯到此JAR包。
- 創建數據開發模塊作業,通過DLI Spark節點提交Spark作業。
環境準備
- 已開通對象存儲服務OBS,并創建桶,例如“obs://dlfexample”,用于存放Spark作業的JAR包。
- 已開通數據湖探索服務DLI,并創建Spark集群“spark_cluster”,為Spark作業提供運行所需的物理資源。
獲取Spark作業代碼
本示例使用的Spark作業代碼來自maven庫,此Spark作業是計算π的近似值。
- 獲取Spark作業代碼JAR包后,將JAR包上傳到OBS桶中,存儲路徑為“obs://dlfexample/spark-examples_2.10-1.1.1.jar”。
- 登錄DataArts Studio控制臺。選擇實例,點擊“進入控制臺”,選擇對應工作空間的“數據開發”模塊,進入數據開發頁面。
選擇數據開發


- 在數據開發主界面的左側導航欄,選擇“配置管理 > 資源管理”。單擊“新建資源”,在數據開發模塊中創建一個資源關聯到步驟1的JAR包,資源名稱為“spark-example”。
創建資源


提交Spark作業
用戶需要在數據開發模塊中創建一個作業,通過作業的DLI Spark節點提交Spark作業。
- 創建一個數據開發模塊空作業,作業名稱為“job_DLI_Spark”。
創建作業


- 然后進入作業開發頁面,拖動DLI Spark節點到畫布并單擊,配置節點的屬性。
配置節點屬性


關鍵屬性說明:
- DLI集群名稱:DLI中創建的Spark集群。
- 作業運行資源:DLI Spark節點運行時,限制最大可以使用的CPU、內存資源。
- 作業主類:DLI Spark節點的主類,本例的主類是“org.apache.spark.examples.SparkPi”。
- Jar包資源:步驟3中創建的資源。
- 作業編排完成后,單擊

,測試運行作業。
作業日志(僅參考)


- 如果日志運行正常,保存作業并提交版本。