DLI Spark
更新時間 2023-07-25 17:08:02
最近更新時間: 2023-07-25 17:08:02
分享文章
本章節主要介紹節點參考的 DLI Spark。
功能
通過DLI Spark節點執行一個預先定義的Spark作業。
參數
用戶可參考下表配置DLI Spark節點的參數。
屬性參數
| 參數 | 是否必選 | 說明 |
|---|---|---|
| 節點名稱 | 是 | 節點名稱,可以包含中文、英文字母、數字、“_”、“-”、“/”、“<”、“>”等各類特殊字符,長度為1~128個字符。 |
| DLI隊列 | 是 | 下拉選擇需要使用的隊列。 |
| 作業特性 | 否 | 選擇自定義鏡像和對應版本。僅當DLI隊列為容器化隊列類型時,出現本參數。自定義鏡像是DLI的特性。用戶可以依賴DLI提供的Spark或者Flink基礎鏡像,使用Dockerfile將作業運行需要的依賴(文件、jar包或者軟件)打包到鏡像中,生成自己的自定義鏡像,然后將鏡像發布到SWR(容器鏡像服務)中,最后在此選擇自己生成的鏡像,運行作業。自定義鏡像可以改變Spark作業和Flink作業的容器運行環境。用戶可以將一些私有能力內置到自定義鏡像中,從而增強作業的功能、性能。。 |
| 作業名稱 | 是 | 填寫DLI Spark作業的名稱,只能包含英文字母、數字、“_”,且長度為1~64個字符。默認與節點的名稱一致。 |
| 作業運行資源 | 否 | 選擇作業運行的資源規格: 8核32G內存 16核64G內存 32核128G內存 |
| 作業主類 | 是 | Spark作業的主類名稱。當應用程序類型為“.jar”時,主類名稱不能為空。 |
| Spark程序資源包 | 是 | 運行spark作業依賴的jars。可以輸入jar包名稱,也可以輸入對應jar包文件的的OBS路徑,格式為:obs://桶名/文件夾路徑名/包名。在選擇資源包之前,您需要先將Jar包及其依賴包上傳至OBS桶中,并在“資源管理”頁面中新建資源,具體操作請參考管理資源章節中的“新建資源”。 |
| 資源類型 | 是 | 支持OBS路徑和DLI程序包兩種類型的資源。 OBS路徑:作業執行時,不會上傳資源包文件到DLI資源管理,文件的OBS路徑會作為啟動作業消息體的一部分,推薦使用該方式。 DLI程序包:作業執行前,會將資源包文件上傳到 DLI資源管理。 |
| 分組設置 | 否 | 當“資源類型”選擇了“DLI程序包”時,需要設置。可選擇“已有分組”,“創建新分組”或“不分組”。 |
| 分組名稱 | 否 | 當“資源類型”選擇了“DLI程序包”時,需要設置。 選擇“已有分組”:可選擇已有的分組。 選擇“創建新分組”:可輸入自定義的組名稱。 選擇“不分組”:不需要選擇或輸入組名稱。 |
| 主類入口參數 | 否 | 用戶自定義參數,多個參數請以Enter鍵分隔。應用程序參數支持全局變量替換。例如,在“全局配置”>“全局變量”中新增全局變量key為batch_num,可以使用{{batch_num}},在提交作業之后進行變量替換。 |
| Spark作業運行參數 | 否 | 以“key/value”的形式設置提交Spark作業的屬性,多個參數以Enter鍵分隔。具體參數請參見Spark Configuration。 Spark參數value支持全局變量替換。 例如,在“全局配置”>“全局變量”中新增全局變量key為custom_class,可以使用"spark.sql.catalog"={{custom_class}},在提交作業之后進行變量替換。 說明 Spark作業不支持自定義設置jvm垃圾回收算法。 |
| Module名稱 | 否 | DLI系統提供的用于執行跨源作業的依賴模塊,訪問各個不同的服務,選擇不同的模塊: CloudTable/MRS HBase: sys.datasource.hbase DDS:sys.datasource.mongo CloudTable/MRS OpenTSDB: sys.datasource.opentsdb DWS: sys.datasource.dws RDS MySQL: sys.datasource.rds RDS PostGre: sys.datasource.rds DCS: sys.datasource.redis CSS: sys.datasource.css DLI內部相關模塊: sys.res.dli-v2 sys.res.dli sys.datasource.dli-inner-table |
| 訪問元數據 | 是 | 是否通過Spark作業訪問元數據。 |
高級參數
| 參數 | 是否必選 | 說明 |
|---|---|---|
| 節點狀態輪詢時間(秒) | 是 | 設置輪詢時間(1~60秒),每隔x秒查詢一次節點是否執行完成。 |
| 節點執行的最長時間 | 是 | 設置節點執行的超時時間,如果節點配置了重試,在超時時間內未執行完成,該節點將不會再重試,直接置為失敗狀態。 |
| 失敗重試 | 是 | 節點執行失敗后,是否重新執行節點。 是:重新執行節點,請配置以下參數。 ? 最大重試次數 ? 重試間隔時間(秒) 否:默認值,不重新執行節點。 說明 如果作業節點配置了重試,并且配置了超時時間,該節點執行超時后將不會再重試,直接置為失敗狀態。 |
| 失敗策略 | 是 | 節點執行失敗后的操作: 終止當前作業執行計劃:停止當前作業運行,當前作業實例狀態顯示為“失敗”。 繼續執行下一節點:忽略當前節點失敗,當前作業實例狀態顯示為“忽略失敗成功”。 掛起當前作業執行計劃:暫停當前作業運行,當前作業實例狀態顯示為“等待運行”。 終止后續節點執行計劃:停止后續節點的運行,當前作業實例狀態顯示為“失敗”。 |
| 空跑 | 否 | 如果勾選了空跑,該節點不會實際執行,將直接返回成功。 |
血緣關系
| 參數 | 說明 |
|---|---|
| 輸入 | |
| 新建 | 單擊“新建”,在“類型”的下拉選項中選擇要新建的類型。可以選擇DWS,OBS,CSS,HIVE,CUSTOM和DLI類型。 DWS ? 連接名稱(必選):單擊 ![]() ,在彈出的“連接名稱”窗口選擇DWS的數據連接。? 數據庫(必選):單擊 ![]() ,在彈出的“數據庫”窗口選擇DWS的數據庫。? schema(必選):單擊 ![]() ,在彈出的“schema”窗口選擇DWS的數據庫模式。? 表名(必選):單擊 ![]() ,在彈出的“表名”窗口選擇DWS的數據表。OBS ? 路徑(必選):單擊 ![]() ,在彈出的“OBS文件瀏覽”窗口選擇OBS路徑。CSS ? 集群名稱(必選):單擊 ![]() ,在彈出的“CloudSearch集群”窗口選擇CloudSearch集群。? 索引名稱(必選):輸入CSS類型的索引名稱。 HIVE ? 連接名稱(必選):單擊 ![]() ,在彈出的“連接名稱”窗口選擇HIVE的數據連接。? 數據庫(必選):單擊 ![]() ,在彈出的“數據庫”窗口選擇HIVE的數據庫。? 表名(必選):單擊 ![]() ,在彈出的“表名”窗口選擇HIVE的數據表。CUSTOM ? 名稱(必選):輸入CUSTOM類型的名稱。 ? 屬性(必選):輸入CUSTOM類型的屬性,可新增不止一條。 DLI ? 連接名稱(必選):單擊 ![]() ,在彈出的“連接名稱”窗口選擇DLI的數據連接。? 數據庫(必選):單擊 ![]() ,在彈出的“數據庫”窗口選擇DLI的數據庫。? 表名(必選):單擊 ,在彈出的“表名”窗口選擇DLI的數據表。 |
| 確定 | 單擊“確認”,保存節點輸入功能的參數配置。 |
| 取消 | 單擊“取消”,取消節點輸入功能的參數配置。 |
| 編輯 | 單擊![]() ,修改節點輸入功能的參數配置,修改完成后,請保存。 |
| 刪除 | 單擊![]() ,刪除節點輸入功能的參數配置。 |
| 查看表詳情 | 單擊![]() ,查看節點輸入血緣關系創建數據表的詳細信息。 |
| 輸出 | |
| 新建 | 單擊“新建”,在“類型”的下拉選項中選擇要新建的類型。可以選擇DWS,OBS,CSS,HIVE,CUSTOM和DLI類型。 DWS ? 連接名稱(必選):單擊 ![]() ,在彈出的“連接名稱”窗口選擇DWS的數據連接。? 數據庫(必選):單擊 ![]() ,在彈出的“數據庫”窗口選擇DWS的數據庫。? schema(必選):單擊 ![]() ,在彈出的“schema”窗口選擇DWS的數據庫模式。? 表名(必選):單擊 ![]() ,在彈出的“表名”窗口選擇DWS的數據表。OBS ? 路徑(必選):單擊 ![]() ,在彈出的“OBS文件瀏覽”窗口選擇OBS路徑。CSS ? 集群名稱(必選):單擊 ![]() ,在彈出的“CloudSearch集群”窗口選擇CloudSearch集群。? 索引名稱(必選):輸入CSS類型的索引名稱。 HIVE ? 連接名稱(必選):單擊 ![]() ,在彈出的“連接名稱”窗口選擇HIVE的數據連接。? 數據庫(必選):單擊 ![]() ,在彈出的“數據庫”窗口選擇HIVE的數據庫。? 表名(必選):單擊 ![]() ,在彈出的“表名”窗口選擇HIVE的數據表。CUSTOM ? 名稱(必選):輸入CUSTOM類型的名稱。 ? 屬性(必選):輸入CUSTOM類型的屬性,可新增不止一條。 DLI ? 連接名稱(必選):單擊 ![]() ,在彈出的“連接名稱”窗口選擇DLI的數據連接。? 數據庫(必選):單擊 ![]() ,在彈出的“數據庫”窗口選擇DLI的數據庫。? 表名(必選):單擊 ,在彈出的“表名”窗口選擇DLI的數據表。 |
| 確定 | 單擊“確認”,保存節點輸出功能的參數配置。 |
| 取消 | 單擊“取消”,取消節點輸出功能的參數配置。 |
| 編輯 | 單擊![]() ,修改節點輸出功能的參數配置,修改完成后,請保存。 |
| 刪除 | 單擊![]() ,刪除節點輸出功能的參數配置。 |
| 查看表詳情 | 單擊![]() ,查看節點輸出血緣關系創建數據表的詳細信息。 |

,在彈出的“連接名稱”窗口選擇DWS的數據連接。
,在彈出的“數據庫”窗口選擇DWS的數據庫。
,在彈出的“schema”窗口選擇DWS的數據庫模式。
,在彈出的“表名”窗口選擇DWS的數據表。
,在彈出的“OBS文件瀏覽”窗口選擇OBS路徑。
,在彈出的“CloudSearch集群”窗口選擇CloudSearch集群。
,在彈出的“連接名稱”窗口選擇HIVE的數據連接。
,在彈出的“數據庫”窗口選擇HIVE的數據庫。
,在彈出的“表名”窗口選擇HIVE的數據表。
,在彈出的“連接名稱”窗口選擇DLI的數據連接。
,在彈出的“數據庫”窗口選擇DLI的數據庫。
,在彈出的“表名”窗口選擇DLI的數據表。
,修改節點輸入功能的參數配置,修改完成后,請保存。
,刪除節點輸入功能的參數配置。
,查看節點輸入血緣關系創建數據表的詳細信息。
,在彈出的“連接名稱”窗口選擇DWS的數據連接。
,在彈出的“數據庫”窗口選擇DWS的數據庫。
,在彈出的“schema”窗口選擇DWS的數據庫模式。
,在彈出的“表名”窗口選擇DWS的數據表。
,在彈出的“OBS文件瀏覽”窗口選擇OBS路徑。
,在彈出的“CloudSearch集群”窗口選擇CloudSearch集群。
,在彈出的“連接名稱”窗口選擇HIVE的數據連接。
,在彈出的“數據庫”窗口選擇HIVE的數據庫。
,在彈出的“表名”窗口選擇HIVE的數據表。
,在彈出的“連接名稱”窗口選擇DLI的數據連接。
,在彈出的“數據庫”窗口選擇DLI的數據庫。
,在彈出的“表名”窗口選擇DLI的數據表。
,修改節點輸出功能的參數配置,修改完成后,請保存。
,刪除節點輸出功能的參數配置。
,查看節點輸出血緣關系創建數據表的詳細信息。