操作場景
為了確保HDFS日常用戶的業務數據安全,或者系統管理員需要對HDFS進行重大操作(如升級或遷移等),需要對HDFS數據進行備份,從而保證系統在出現異常或未達到預期結果時可以及時進行數據恢復,將對業務的影響降到最低。
系統管理員可以通過FusionInsight Manager創建備份HDFS任務并備份數據。支持創建任務自動或手動備份數據。
說明加密目錄不支持備份恢復。
前提條件
- 如果數據要備份至遠端HDFS中,需要準備一個用于備份數據的備集群,認證模式需要與主集群相同。其他備份方式不需要準備備集群。
- 如果主集群部署為安全模式,且主備集群不是由同一個FusionInsight Manager管理,則必須配置系統互信,請參見配置跨Manager集群互信。如果主集群部署為普通模式,則不需要配置互信。
- 主備集群必須已配置跨集群拷貝,請參見啟用集群間拷貝功能。
- 主備集群上的時間必須一致,而且主備集群上的NTP服務必須使用同一個時間源。
- 根據業務需要,規劃備份任務的類型、周期、備份對象、備份目錄和備份任務需要使用的Yarn隊列等策略規格。
- 檢查備集群HDFS是否有充足的空間,備份文件保存的目錄建議使用用戶自定義的目錄。
- 使用HDFS客戶端,以“hdfs”用戶執行hdfs lsSnapshottableDir檢查當前集群中已創建HDFS快照的目錄清單,確保待備份的數據文件所在HDFS路徑的父目錄或子目錄不存在HDFS快照,否則無法創建備份任務。
- 如果數據要備份至NAS中,需要提前部署好NAS服務端。
操作步驟
1.在FusionInsight Manager,選擇“運維 > 備份恢復 > 備份管理”。
2.單擊“創建”。
3.在“任務名稱”填寫備份任務的名稱。
4.在“備份對象”選擇待操作的集群。
5.在“備份類型”選擇備份任務的運行類型。
“周期備份”表示按周期自動執行備份,“手動備份”表示由手工執行備份。
周期備份參數
| 參數名稱 | 描述 |
|---|---|
| 開始時間 | 任務第一次啟動的時間。 |
| 周期 | 任務下次啟動,與上一次運行的時間間隔,支持按“小時”或按“天”。 |
| 備份策略 | 首次全量備份,后續增量備份 每次都全量備份 每n次進行一次全量備份 說明 備份Manager數據和組件元數據時不支持增量備份,僅支持“每次都全量備份”。 如果“路徑類型”要使用NFS或CIFS,不能使用增量備份功能。因為在NFS或CIFS備份時使用增量備份時,每次增量備份都會刷新最近一次全量備份的備份數據,所以不會產生新的恢復點。 |
6.在“備份配置”,勾選“HDFS”。
7.在“HDFS”的“路徑類型”,選擇一個備份目錄的類型。
備份目錄支持以下類型:
- “RemoteHDFS”:表示將備份文件保存在備集群的HDFS目錄。
選擇此參數值,還需要配置以下參數:
“目的端NameService名稱”:填寫備集群的NameService名稱。可以輸入集群內置的遠端集群的NameService名稱(haclusterX,haclusterX1,haclusterX2,haclusterX3,haclusterX4),也可輸入其他已配置的遠端集群NameService名稱。
“IP 模式”:目標IP的IP地址模式。系統會根據集群網絡類型自動選擇對應的IP模式,如IPv4或者IPv6。
“目的端NameNode IP地址”:填寫備集群NameNode業務平面IP地址,支持主節點或備節點。
“目的端路徑”:填寫備集群保存備份數據的HDFS目錄。不支持填寫HDFS中的隱藏目錄,例如快照或回收站目錄;也不支持默認的系統目錄,例如“/hbase”或“/user/hbase/backup”。
“最大備份數”:填寫備份目錄中可保留的備份文件集數量。
“隊列名稱”:填寫備份任務執行時使用的YARN隊列的名稱。需和集群中已存在且狀態正常的隊列名稱相同。
“最大map數”:填寫執行MapReduce任務的最大map數,默認值為“20”。
“單個map的最大帶寬(MB/s)”:填寫單個map最大帶寬,默認值為“100”。
“NameService名稱”:選擇備份目錄對應的NameService名稱。默認值為“hacluster”。
- “NFS”:表示將備份文件通過NFS協議保存在NAS中。
選擇此參數值,還需要配置以下參數:
“IP 模式”:目標IP的IP地址模式。系統會根據集群網絡類型自動選擇對應的IP模式,如IPv4或者IPv6。
“服務器IP地址”:填寫NAS服務器IP地址。
“最大備份數”:填寫備份目錄中可保留的備份文件集數量。
“服務器共享路徑”:填寫用戶配置的NAS服務器共享目錄。
“隊列名稱”:填寫備份任務執行時使用的YARN隊列的名稱。需和集群中已存在且狀態正常的隊列名稱相同。
“最大map數”:填寫執行MapReduce任務的最大map數,默認值為“20”。
“單個map的最大帶寬(MB/s)”:填寫單個map最大帶寬,默認值為“100”。
“NameService名稱”:選擇備份目錄對應的NameService名稱。默認值為“hacluster”。
- “CIFS”:表示將備份文件通過CIFS協議保存在NAS中。選擇此參數值,還需要配置以下參數:
“IP 模式”:目標IP的IP地址模式。系統會根據集群網絡類型自動選擇對應的IP模式,如IPv4或者IPv6。
“服務器IP地址”:填寫NAS服務器IP地址。
“端口號”:填寫CIFS協議連接NAS服務器使用的端口號,默認值為“445”。
“用戶名”:填寫配置CIFS協議時設置的用戶名。
“密碼”:填寫配置CIFS協議時設置的密碼。
“最大備份數”:填寫備份目錄中可保留的備份文件集數量。
“服務器共享路徑”:填寫用戶配置的NAS服務器共享目錄。
“隊列名稱”:填寫備份任務執行時使用的YARN隊列的名稱。需和集群中已存在且狀態正常的隊列名稱相同。
“最大map數”:填寫執行MapReduce任務的最大map數,默認值為“20”。
“單個map的最大帶寬(MB/s)”:填寫單個map最大帶寬,默認值為“100”。
“NameService名稱”:選擇備份目錄對應的NameService名稱。默認值為“hacluster”。
- “SFTP”:表示將備份文件通過SFTP協議保存到服務器中。
選擇此參數值,還需要配置以下參數:
“IP 模式”:目標IP的IP地址模式。系統會根據集群網絡類型自動選擇對應的IP模式,如IPv4或者IPv6。
“服務器IP地址”:填寫備份數據的服務器IP地址。
“端口號”:填寫SFTP協議連接備份服務器使用的端口號,默認值為“22”。
“用戶名”:填寫使用SFTP協議連接服務器時的用戶名。
“密碼”:填寫使用SFTP協議連接服務器時的密碼。
“服務器共享路徑”:SFTP服務器上的備份路徑。
“最大備份數”:填寫備份目錄中可保留的備份文件集數量。
“隊列名稱”:填寫備份任務執行時使用的YARN隊列的名稱。需和集群中已存在且狀態正常的隊列名稱相同。
“最大map數”:填寫執行MapReduce任務的最大map數,默認值為“20”。
“單個map的最大帶寬(MB/s)”:填寫單個map最大帶寬,默認值為“100”。
“NameService名稱”:選擇備份目錄對應的NameService名稱。默認值為“hacluster”。
8.在“最大恢復點個數”填寫備份任務在本集群中備份可保留的快照數量。
9.在HDFS“備份內容”中,根據業務需要選擇一個或多個需要備份的HDFS目錄。
支持兩種方式選擇備份數據:
- 直接選擇
單擊導航中某個目錄的名稱,將展開顯示此目錄中的所有子目錄,勾選指定的目錄。
- 正則表達式篩選
a. 單擊“正則表達式輸入”。
b. 根據界面提示,在第一個輸入框填寫目錄的父目錄完整路徑,需要與當前存在的目錄完全匹配。例如“/tmp”。
c. 在第二個輸入框輸入正則表達式,支持標準正則表達式。例如要篩選父目錄中所有的文件或子目錄,輸入“([\s\S]?)”。例如要篩選命名規則為字母數字組合的文件,如file1 可輸入“file\d ”。
d. 單擊“刷新”,在“目錄名稱”查看篩選的目錄。
e. 單擊“同步”保存篩選結果。
說明
輸入正則表達式時,可以使用
和
增加或刪除一條表達式。
如果已選擇的表或目錄不正確,可以單擊“清除選中節點”清除勾選。
備份目錄不可包含長期寫入
10.單擊“校驗”查看備份任務的配置是否正確。
校驗失敗可能存在以下原因:
- 目的端NameNode IP地址不正確。
- 隊列名稱不正確。
- 待備份的數據文件所在HDFS路徑的父目錄或子目錄存在HDFS快照。
- 待備份的目錄或表不存在。
- NameService名稱不正確。
11.單擊“確定”保存。
12.在備份任務列表中已創建任務的“操作”列,選擇“更多 > 即時備份”,開始執行備份任務。
備份任務執行完成后,系統自動在備集群的備份路徑中為每個備份任務創建子目錄,目錄名為“ 備份任務名_數據源_任務創建時間” ,數據源每次備份的最新備份文件保存在此目錄中。所有備份文件集保存在對應的快照目錄中。
和