操作場景
當用戶需要將保存在HDFS中的數據從當前集群備份到另外一個集群時,需要使用DistCp工具。DistCp工具依賴于集群間拷貝功能,該功能默認未啟用。拷貝數據的集群雙方都需要配置。
管理員可以根據以下指導,在FusionInsight Manager修改參數以啟用集群間拷貝功能。啟用之后即可創建將數據備份至遠端HDFS(RemoteHDFS)的備份任務。
對系統的影響
啟用集群間復制功能需要重啟Yarn,服務重啟期間無法訪問。
前提條件
- 拷貝數據的集群的HDFS的參數“hadoop.rpc.protection”需使用相同的數據傳輸方式。默認設置為“privacy”表示加密,“authentication”表示不加密。
- 對于安全模式的集群,集群之間需要配置系統互信。
操作步驟
1.登錄其中一個集群的FusionInsight Manager。
2.選擇“集群 > 待操作集群的名稱 > 服務> Yarn > 配置”,單擊“全部配置”。
3.左邊菜單欄中選擇“Yarn > 集群間拷貝”。
4.修改參數“dfs.namenode.rpc-address”,在“haclusterX.remotenn1”右側填寫對端集群其中一個NameNode實例的業務IP和RPC端口,在“haclusterX.remotenn2”右側填寫對端集群另外一個NameNode實例的業務IP和RPC端口。
“haclusterX.remotenn1”和“haclusterX.remotenn2”不區分主備NameNode。NameNode RPC端口默認為“8020”,不支持通過Manager修改。
修改后參數值例如:“10.1.1.1:8020”和“10.1.1.2:8020”。
說明
如果本集群數據要備份至多個集群的HDFS中,可以繼續配置對應的NameNode RPC地址至haclusterX1、haclusterX2、haclusterX3、haclusterX4。
5.單擊“保存”,并在確認對話框中單擊“確定”。
6.重啟Yarn服務。
7.登錄另外一個集群的FusionInsight Manager,重復2~6。