MRS數據源使用概述
MRS集群簡介
翼MapReduce(MRS)是一個基于開源Hadoop生態環境而運行的大數據集群,對外提供大容量數據的存儲和分析能力,可解決用戶的數據存儲和處理需求。有關MRS服務的詳細信息,請參考《翼MapReduce服務用戶操作指南》。
用戶可以將海量業務數據,存儲在MRS的分析集群,即使用Hive/Spark組件保存。Hive/Spark的數據文件則保存在HDFS中。DWS支持在相同網絡中,配置一個DWS集群連接到MRS集群,然后將數據從HDFS中的文件讀取到DWS。
使用流程
從MRS導入數據到集群流程如下:
- 前提條件
a. 創建一個MRS集群,具體操作步驟請參見《MapReduce服務用戶操作指南》中“購買自定義集群”章節。
b. 創建一個HDFS外表,外表通過外部服務器的接口,從MRS集群查詢數據。
具體操作步驟請參見《數據倉庫服務數據庫開發指南》中“導入數據 > 從MRS導入數據到集群”章節。
說明同一個網絡下可以有多個MRS數據源, 但是DWS集群每次只能和一個MRS集群建立連接。
- 在DWS集群創建一個MRS數據源連接,具體操作步驟請參見下文 創建MRS數據源連接。
- 使用MRS數據源導入數據到集群,具體操作步驟請參見《數據倉庫服務數據庫開發指南》中的“導入數據 > 從MRS導入數據到集群”章節。
- (可選)當MRS集群的HDFS配置發生變更時,在DWS服務中,需要執行MRS數據源配置的更新操作,詳情請參見下文 更新MRS數據源配置。
創建MRS數據源連接
操作場景
DWS從MRS的HDFS讀取數據前,需要先創建一個MRS數據源連接,作為DWS集群與MRS集群的數據通道。
對系統的影響
- 一個DWS集群在創建MRS數據源連接時,不能同時創建兩個連接。
- 創建MRS數據源連接時,系統默認自動為DWS集群和MRS集群的安全組增加出規則和入規則,允許相同子網中節點的訪問。
- 啟用Kerberos認證的MRS集群,系統會自動增加一個類型為“機機”的用戶,屬于“supergroup”用戶組。
前提條件
- DWS集群已創建好,并記錄集群所在的虛擬私有云和子網。
- 創建MRS數據源連接需要創建MRS集群類型為分析集群。
操作步驟
- 登錄MRS控制臺。
- 打開MRS管理控制臺,創建MRS集群。
創建集群時,請按要求配置以下參數,其他配置無特別要求,具體操作請參見《MapReduce服務用戶操作指南》中的“自定義創建集群”章節:
- MRS集群的虛擬私有云需要和DWS集群相同。
- MRS集群版本,主推1.9.2、2.1.0、3.0.2-LTS、3.1.2-LTS 4個版本。
說明
8.1.1.300及以上版本集群,MRS集群支持連接1.6.*、1.7.*、1.8.*、1.9.*、2.0.*、3.0.*、3.1.*及以上版本(“*”代表的是數字)。
8.1.1.300以下版本集群,MRS集群支持連接1.6.*、1.7.*、1.8.*、1.9.*、2.0.*版本(“*”代表的是數字)。
-
組件選擇,需要選擇Hadoop組件。
如果已有符合如上條件的MRS集群,則可跳過此步驟。
- 登陸DWS管理控制臺。
- 在DWS管理控制臺,選擇“集群 > 專屬集群”。
- 在集群列表中單擊指定集群的名稱,進入“集群詳情”頁面。
- 在左側導航欄,選擇“數據源>MRS數據源”頁簽。
- 單擊“創建MRS數據源連接”,填寫配置參數。
MRS連接公共參數說明
| 參數名 | 說明 |
|---|---|
| 數據源名稱 | 對應DWS數據庫server名稱,包含小寫字母、數字或者下劃線,且必須以小寫字母開頭,長度為3到63個字符。 |
| 配置方式 | 表示配置時系統獲取文件使用的方式: MRS用戶:配置MRS manager用戶/密碼,系統登錄MRS manager自動下載配置文件及認證文件。參數說明詳情請參見表 MRS用戶方式參數配置說明。 文件上傳: 自行在MRS manager下載配置文件,通過上傳配置文件的方式配置,該方式適用于開啟Kerberos認證。參數說明詳情請參見表 文件上傳方式參數配置說明。 須知:選擇文件上傳方式時,確保MRS和DWS集群網絡互通。 |
| 數據庫 | 數據源所在數據庫。 |
| 描述 | 表示此連接的說明信息。 |
MRS用戶方式參數配置說明
| 參數名 | 說明 |
|---|---|
| MRS數據源 | 下拉框選擇DWS可連接的MRS集群。默認顯示當前用戶可連接的,即與當前DWS集群在相同虛擬私有云和子網下且為可用狀態的自定義型、混合型以及分析型MRS集群。 選擇一個MRS集群后,將自動顯示已選擇的MRS是否啟用了Kerberos認證。單擊“查看MRS集群”可進入MRS查看該MRS集群信息。 如果“MRS數據源”下拉框為空,用戶可以單擊“創建MRS集群”進行創建。 |
| MRS用戶 | DWS集群連接MRS集群時使用的用戶名。 |
| 用戶密碼 | 填寫連接用戶的密碼。如果用戶密碼被修改,則需要重新創建連接。 須知 用戶密碼必須成功登錄過MRS Manager,新用戶使用初始密碼第一次登錄MRS Manager時會提示修改密碼,這種情況會導致配置MRS數據源失敗。 |
| 使用機機賬號 | 開啟后,會自動在MRS創建一個名稱為dws的機機賬號用于后續dws數據庫和MRS的交互,該機機賬號固定為supergroup組,擁有所有權限; 若關閉,則直接將配置的人機用戶用于dws數據庫和MRS交互,需要保證用戶擁有數據權限,否則在使用數據源時會提示文件不存在。 |
文件上傳方式參數配置說明
| 參數名 | 說明 |
|---|---|
| 認證憑據 | 用戶keytab文件。在MRS manager下載的用戶認證憑據文件,文件名稱格式為:用戶名稱_時間戳_keytab.tar: MRS 2.x 及之前版本下載路徑 :系統設置>用戶管理>更多>下載認證憑據 MRS 3.x 及之后版本下載路徑 :系統>權限>用戶>更多>下載認證憑據 |
| 客戶端配置文件 | 包含HDFS、Hive、hosts的客戶端配置文件,下載客戶端時“客戶端類型”需選擇“僅配置文件”: MRS 2.x 及之前版本下載路徑 :服務管理>下載客戶端 MRS 3.x 及之后版本下載路徑 :主頁>更多>下載客戶端 |
- 單擊“提交”保存連接。
創建連接需要一段時間,此時“配置狀態”顯示為“創建中”,成功后在MRS數據源列表中可看到已創建的連接,且狀態為“可用”。
說明
在“操作”列,可以單擊“更新配置”,更新當前連接的“MRS集群狀態”和“配置狀態”。在更新配置時,無法創建新的連接,且會檢查安全組規則是否正常并自助修復。具體請參見下文 更新MRS數據源配置。
在“操作”列,可以單擊“刪除”將不再使用的連接刪除釋放。刪除連接時,不會自動刪除安全組規則,請根據需要手工刪除。
安全組規則若不刪除,DWS集群中的節點與MRS集群中的節點網絡仍是互通的。如果用戶對網絡安全要求較嚴格,建議手動刪除安全組規則。
更新MRS數據源配置
操作場景
MRS的HDFS集群參數配置變更時,可能造成DWS集群無法從HDFS集群導入數據。使用HDFS集群導入數據前,需要執行MRS數據源配置的更新操作。
前提條件
DWS集群已創建MRS數據源連接。
對系統的影響
更新MRS數據源連接時,DWS集群會自動重啟并無法提供服務。
操作步驟
- 在DWS管理管制臺,選擇“集群 > 專屬集群”。
- 在集群列表,單擊指定集群的名稱,然后單擊“MRS數據源”。
- 在MRS數據源列表中,選中需要更新的MRS數據源,在“操作”列中,單擊“更新配置”。
更新當前連接的“MRS集群狀態”和“配置狀態”。在更新配置時,無法創建新的連接,且會檢查安全組規則是否正常并自助修復。參數說明如下所示:
參數說明
| 參數名 | 參數解釋 |
|---|---|
| dfs.client.read.shortcircuit | 是否開啟本地讀。 |
| dfs.client.read.shortcircuit.skip.checksum | 本地讀時是否跳過數據校驗。 |
| dfs.client.block.write.replace-datanode-on-failure.enable | 向HDFS寫數據塊發生失敗時,是否替換新的節點作為副本存儲位置。 |
| dfs.encrypt.data.transfer | 是否開啟數據加密。設置為“true”表示加密,默認不加密。 說明 l 此參數僅對啟用Kerberos認證的集群有效。 l 僅當hadoop.rpc.protection設置為privacy時使用。 |
| dfs.encrypt.data.transfer.algorithm | 指定密鑰傳輸的加密解密算法。 只有在dfs.encrypt.data.transfer配置項設置為“true”,此參數才會生效。 默認值為“3des”,表示采用3DES算法進行加密。 |
| dfs.encrypt.data.transfer.cipher.suites | 指定實際存儲數據傳輸的加密解密算法。 如果不指定此參數,則使用“dfs.encrypt.data.transfer.algorithm”參數指定的加密算法進行數據加密。默認值為“AES/CTR/NoPadding”。 |
| dfs.replication | 默認數據副本個數。 |
| dfs.blocksiz | 默認數據塊大小。 |
| hadoop.security.authentication | 安全認證模式。 |
| hadoop.rpc.protection | RPC通信保護模式。 默認值:安全模式(啟用Kerberos認證):privacy 普通模式(未啟用Kerberos認證):authentication 須知 “authentication”:只進行認證,不加密。? “integrity”:進行認證和一致性校驗。 “privacy”:進行認證、一致性校驗、加密。 |
| dfs.domain.socket.path | 本地使用的Domain socket路徑。 |