目前CDM支持連接的HDFS數據源有以下幾種:
- MRS HDFS
- FusionInsight HDFS
- Apache HDFS
MRS HDFS
連接MRS上的HDFS數據源時,相關參數詳見表MRS上的HDFS連接參數。
說明
新建MRS連接前,需在MRS中添加一個kerberos認證用戶并登錄MRS管理頁面更新其初始密碼,然后使用該新建用戶創建MRS連接。
如需連接MRS 2.x版本的集群,請先創建2.x版本的CDM集群。CDM 1.8.x版本的集群無法連接MRS 2.x版本的集群。
需確保MRS集群和DataArts Studio實例之間網絡互通,網絡互通需滿足如下條件:
DataArts Studio實例(指DataArts Studio實例中的CDM集群)與MRS集群處于不同區域的情況下,需要通過公網或者專線打通網絡。通過公網互通時,需確保CDM集群已綁定EIP,MRS集群可以訪問公網且防火墻規則已開放連接端口。
DataArts Studio實例(指DataArts Studio實例中的CDM集群)與MRS集群同區域情況下,同虛擬私有云、同子網、同安全組的不同實例默認網絡互通;如果同虛擬私有云但子網或安全組不同,還需配置路由規則及安全組規則,配置路由規則請參見《虛擬私有云》幫助文檔中的“自定義路由(Region Type Ⅰ)> 添加路由信息”章節,配置安全組規則請參見《虛擬私有云》幫助文檔中的“安全組 > 添加安全組規則”章節。
此外,還需確保該MRS集群與DataArts Studio工作空間所屬的企業項目相同,如果不同,您需要修改工作空間的企業項目。
詳見下表:MRS上的HDFS連接參數
| 參數名 | 說明 | 取值樣例 |
|---|---|---|
| 名稱 | 連接的名稱,根據連接的數據源類型,用戶可自定義便于記憶、區分的連接名。 | mrs_hdfs_link |
| Manager IP | MRS Manager的浮動IP地址,可以單擊輸入框后的“選擇”來選定已創建的MRS集群,CDM會自動填充下面的鑒權參數。 | 127.0.0.1 |
| 用戶名 | 選擇KERBEROS鑒權時,需要配置MRS Manager的用戶名和密碼。從HDFS導出目錄時,如果需要創建快照,這里配置的用戶需要HDFS系統的管理員權限。 如果要創建MRS安全集群的數據連接,不能使用admin用戶。因為admin用戶是默認的管理頁面用戶,這個用戶無法作為安全集群的認證用戶來使用。您可以創建一個新的MRS用戶,然后在創建MRS數據連接時,“用戶名”和“密碼”填寫為新建的MRS用戶及其密碼。 說明 如果CDM集群為2.9.0版本及之后版本,且MRS集群為3.1.0及之后版本,則所創建的用戶至少需具備Manager_viewer的角色權限才能在CDM創建連接;如果需要對MRS組件的庫、表、列進行操作,還需要參考MRS文檔添加對應組件的庫、表、列操作權限。 如果CDM集群為2.9.0之前的版本,或MRS集群為3.1.0之前的版本,則所創建的用戶需要具備Manager_administrator或System_administrator權限,才能在CDM創建連接。 僅具備Manager_tenant或Manager_auditor權限,無法創建連接。 |
cdm |
| 密碼 | 訪問MRS Manager的用戶密碼。 | - |
| 認證類型 | 訪問MRS的認證類型: SIMPLE:非安全模式選擇Simple鑒權。 KERBEROS:安全模式選擇Kerberos鑒權。 |
SIMPLE |
| 運行模式 | 選擇HDFS連接的運行模式: EMBEDDED:連接實例與CDM運行在一起,該模式性能較好。 STANDALONE:連接實例運行在獨立進程。如果CDM需要對接多個Hadoop數據源(MRS、Hadoop或CloudTable),并且既有KERBEROS認證模式又有SIMPLE認證模式,只能使用STANDALONE模式或者配置不同的Agent。 說明 STANDALONE模式主要是用來解決版本沖突問題的運行模式。當同一種數據連接的源端或者目的端連接器的版本不一致時,存在jar包沖突的情況,這時需要將源端或目的端放在STANDALONE進程里,防止沖突導致遷移失敗。 Agent:連接實例運行在Agent上。 若不使用AGENT運行模式,且在一個CDM中同時連接兩個及以上開啟Kerberos認證且realm相同的集群,只能使用EMBEDDED運行模式連接其中一個集群,其余需使用STANDALONE。 |
STANDALONE |
| Agent | 單擊“選擇”,選擇連接Agent中已創建的Agent。運行模式選擇Agent時顯示此參數。 | - |
| 是否使用集群配置 | 您可以通過使用集群配置,簡化Hadoop連接參數配置。 | 否 |
| 集群配置名 | 僅當“是否使用集群配置”為“是”時,此參數有效。此參數用于選擇用戶已經創建好的集群配置。 | hdfs_01 |
單擊“顯示高級屬性”,然后單擊“添加”,您可以添加客戶端的配置屬性。所添加的每個屬性需配置屬性名稱和值。對于不再需要的屬性,可單擊屬性后的“刪除”按鈕進行刪除。
FusionInsight HDFS
連接FusionInsight HD上的HDFS數據源時,詳見下表:FusionInsight HDFS連接參數
| 參數名 | 說明 | 取值樣例 |
|---|---|---|
| 名稱 | 連接的名稱,根據連接的數據源類型,用戶可自定義便于記憶、區分的連接名。 | FI_hdfs_link |
| Manager IP | FusionInsight Manager平臺的地址。 | 127.0.0.1 |
| Manager端口 | FusionInsight Manager平臺的端口。 | 28443 |
| CAS Server端口 | 與FusionInsight對接的CAS Server的端口。 | 20009 |
| 用戶名 | 登錄FusionInsight Manager平臺的用戶名。 從HDFS導出目錄時,如果需要創建快照,這里配置的用戶需要HDFS系統的管理員權限。 | cdm |
| 密碼 | FusionInsight Manager平臺的密碼。 | - |
| 認證類型 | 訪問集群的認證類型: SIMPLE:非安全模式選擇Simple鑒權。 KERBEROS:安全模式選擇Kerberos鑒權。 |
KERBEROS |
| 運行模式 | 選擇HDFS連接的運行模式: EMBEDDED:連接實例與CDM運行在一起,該模式性能較好。 STANDALONE:連接實例運行在獨立進程。如果CDM需要對接多個Hadoop數據源(MRS、Hadoop或CloudTable),并且既有KERBEROS認證模式又有SIMPLE認證模式,只能使用STANDALONE模式或者配置不同的Agent。 STANDALONE模式主要是用來解決版本沖突問題的運行模式。當同一種數據連接的源端或者目的端連接器的版本不一致時,存在jar包沖突的情況,這時需要將源端或目的端放在STANDALONE進程里,防止沖突導致遷移失敗。 Agent:連接實例運行在Agent上。 |
STANDALONE |
| Agent | 單擊“選擇”,選擇連接Agent中已創建的Agent。運行模式選擇Agent時顯示此參數。 | - |
| 是否使用集群配置 | 您可以通過使用集群配置,簡化Hadoop連接參數配置。 | 否 |
| 集群配置名 | 僅當“是否使用集群配置”為“是”時,此參數有效。此參數用于選擇用戶已經創建好的集群配置。 | hdfs_01 |
單擊“顯示高級屬性”,然后單擊“添加”,您可以添加客戶端的配置屬性。所添加的每個屬性需配置屬性名稱和值。對于不再需要的屬性,可單擊屬性后的“刪除”按鈕進行刪除。
Apache HDFS
連接Apache Hadoop上的HDFS數據源時,相關參數詳見下表:Apache HDFS連接參數
| 參數名 | 說明 | 取值樣例 |
|---|---|---|
| 名稱 | 連接的名稱,根據連接的數據源類型,用戶可自定義便于記憶、區分的連接名。 | hadoop_hdfs_link |
| URI | 表示NameNode URI地址。可以填寫為:hdfs://namenode 實例的ip :8020。 | hdfs://IP :8020 |
| 認證類型 | 訪問集群的認證類型: SIMPLE:非安全模式選擇Simple鑒權。 KERBEROS:安全模式選擇Kerberos鑒權。 |
KERBEROS |
| Principal | 認證類型為“KERBEROS”時,需要填寫Principal。Principal即Kerberos安全模式下的用戶名,可以聯系Hadoop管理員獲取。此處填寫的Principal需要與Keytab文件保持一致。 | - |
| Keytab文件 | 認證類型為“KERBEROS”時,需要上傳Keytab文件。Keytab文件為認證憑據文件,可以聯系Hadoop管理員獲取。獲取Keytab文件前,需要在集群上至少修改過一次此用戶的密碼,否則下載獲取的keytab文件可能無法使用。另外,修改用戶密碼后,之前導出的keytab將失效,需要重新導出。 | - |
| 運行模式 | 選擇HDFS連接的運行模式: EMBEDDED:連接實例與CDM運行在一起,該模式性能較好。 STANDALONE:連接實例運行在獨立進程。如果CDM需要對接多個Hadoop數據源(MRS、Hadoop或CloudTable),并且既有KERBEROS認證模式又有SIMPLE認證模式,只能使用STANDALONE模式或者配置不同的Agent。 說明 STANDALONE模式主要是用來解決版本沖突問題的運行模式。當同一種數據連接的源端或者目的端連接器的版本不一致時,存在jar包沖突的情況,這時需要將源端或目的端放在STANDALONE進程里,防止沖突導致遷移失敗。 Agent:連接實例運行在Agent上。 |
STANDALONE |
| IP與主機名映射 | 運行模式選擇“EMBEDDED”、“STANDALONE”時,該參數有效。 如果HDFS配置文件使用主機名,需要配置IP與主機的映射。格式:IP與主機名之間使用空格分隔,多對映射使用分號或回車換行分隔。 | 10.1.6.9 hostname01 10.2.7.9 hostname02 |
| Agent | 運行模式選擇“Agent”時,單擊“選擇”,選擇連接Agent中已創建的Agent。 | - |
| 是否使用集群配置 | 您可以通過使用集群配置,簡化Hadoop連接參數配置。 | 否 |
| 集群配置名 | 僅當“是否使用集群配置”為“是”時,此參數有效。此參數用于選擇用戶已經創建好的集群配置。 | hdfs_01 |