配置HBase/CloudTable源端參數
更新時間 2023-08-17 15:43:06
最近更新時間: 2023-08-17 15:43:06
分享文章
本章節主要介紹配置HBase/CloudTable源端參數。
作業中源連接為配置HBase連接或配置CloudTable連接時,即從MRS HBase、FusionInsight HBase、Apache HBase或者CloudTable導出數據時,源端作業參數如下表所示。
說明
CloudTable或HBase作為源端時,CDM會讀取表的首行數據作為字段列表樣例,如果首行數據未包含該表的所有字段,用戶需要自己手工添加字段。
由于HBase的無Schema技術特點,CDM無法獲知數據類型,如果數據內容是使用二進制格式存儲的,CDM會無法解析。
從HBase/CloudTable導出數據時,由于HBase/CloudTable是無Schema的存儲系統,CDM要求源端數值型字段是以字符串格式存儲,而不能是二進制格式,例如數值100需存儲格式是字符串“100”,不能是二進制“01100100”。
表 HBase/CloudTable作為源端時的作業參數
| 參數名 | 說明 | 取值樣例 |
|---|---|---|
| 表名 | 導出數據的HBase表名。 該參數支持配置為時間宏變量,且一個路徑名中可以有多個宏定義變量。使用時間宏變量和定時任務配合,可以實現定期同步新增數據。 |
TBL_2 |
| 列族 | 可選參數,導出數據所屬的列族。 | CF1&CF2 |
| 切分Rowkey | 可選參數,選擇是否拆分Rowkey,默認為“否”。 | 是 |
| Rowkey分隔符 | 可選參數,用于拆分Rowkey的分隔符,若不設置則不切分。 | l |
| 起始時間 | 可選參數,起始時間(包含該值),格式為“yyyy-MM-dd HH:mm:ss”,表示只抽取該時間及以后的數據。 該參數支持配置為時間宏變量,使用時間宏變量和定時任務配合,可以實現定期同步新增數據。 |
2019-01-01 20:00:00 |
| 終止時間 | 可選參數,終止時間(不包含該值),格式為“yyyy-MM-dd HH:mm:ss”,表示只抽取該時間以前的數據。 該參數支持配置為時間宏變量。 |
2019-02-01 20:00:00 |