配置Hive源端參數
更新時間 2023-08-17 15:43:44
最近更新時間: 2023-08-17 15:43:44
分享文章
本章節主要介紹配置Hive源端參數。
作業中源連接為配置Hive連接時,源端作業參數如下表所示。
表 Hive作為源端時的作業參數
| 參數名 | 說明 | 取值樣例 |
|---|---|---|
| 數據庫名稱 | 輸入或選擇數據庫名稱。單擊輸入框后面的按鈕可進入數據庫選擇界面。 | default |
| 表名 | 輸入或選擇Hive表名。單擊輸入框后面的按鈕可進入表的選擇界面。 該參數支持配置為時間宏變量,且一個路徑名中可以有多個宏定義變量。使用時間宏變量和定時任務配合,可以實現定期同步新增數據。 |
TBL_E |
| 讀取方式 | 包括HDFS和JDBC兩種讀取方式。默認為HDFS方式,如果沒有使用WHERE條件做數據過濾及在字段映射頁面添加新字段的需求,選擇HDFS方式即可。 HDFS文件方式讀取數據時,性能較好,但不支持使用WHERE條件做數據過濾及在字段映射頁面添加新字段。 JDBC方式讀取數據時,支持使用WHERE條件做數據過濾及在字段映射頁面添加新字段。 |
HDFS |
| 分區過濾條件 | 讀取方式為HDFS時,單擊“顯示高級屬性”后顯示此參數。 該參數表示抽取指定值的partition,可以配置多個值(空格分隔),也可以配置為字段取值范圍,接受時間宏函數。 |
單/多值過濾: "{dateformat(yyyyMMdd, -1, DAY)} {dateformat(yyyyMMdd)}" 范圍過濾: " {value} >= {dateformat(yyyyMMdd, -7, DAY)} && {value} < {dateformat(yyyyMMdd)}" |
| Where子句 | 讀取方式為JDBC時,單擊“顯示高級屬性”后顯示此參數。 填寫該參數表示指定抽取的WHERE子句,不指定則抽取整表。如果要遷移的表中沒有WHERE子句的字段,則會遷移失敗。 該參數支持配置為時間宏變量,實現抽取指定日期的數據。 |
age > 18 and age <= 60 |
說明Hive作為數據源,CDM自動使用Hive數據分片文件進行數據分區。