概述
MRS Manager提供對系統內的用戶數據及系統數據的備份恢復能力,備份功能按組件提供,支持備份管理系統Manager的數據(需要同時備份OMS和LdapServer)、Hive用戶數據、DBService中保存的組件元數據和HDFS元數據備份。
備份恢復任務的使用場景如下:
- 用于日常備份,確保系統及組件的數據安全。
- 當系統故障導致無法工作時,使用已備份的數據完成恢復操作。
- 當主集群完全故障,需要創建一個與主集群完全相同的鏡像集群,可以使用已備份的數據完成恢復操作。
詳見下表:根據業務需要備份元數據
| 備份類型 | 備份內容 |
|---|---|
| OMS | 默認備份集群管理系統中的數據庫數據(不包含告警數據)以及配置數據。 |
| LdapServer | 備份用戶信息,包括用戶名、密碼、密鑰、密碼策略、組信息。 |
| DBService | 備份DBService管理的組件(Hive)的元數據。 |
| NameNode | 備份HDFS元數據。 |
原理
任務
在進行備份恢復之前,需要先創建備份恢復任務,并指定任務的參數,例如任務名稱、備份數據源和備份文件保存的目錄類型等等。通過執行備份恢復任務,用戶可完成數據的備份恢復需求。在使用Manager執行恢復HDFS、Hive和NameNode數據時,無法訪問集群。
每個備份任務可同時備份不同的數據源,每個數據源將生成獨立的備份文件,每次備份的所有備份文件組成一個備份文件集,可用于恢復任務。備份任務支持將備份文件保存在Linux本地磁盤、本集群HDFS與備集群HDFS中。備份任務提供全量備份或增量備份的策略,增量備份策略支持HDFS和Hive備份任務,OMS、LdapServer、DBService和NameNode備份任務默認只應用全量備份策略。

說明任務運行規則:
* 某個任務已經處于執行狀態,則當前任務無法重復執行,其他任務也無法啟動。
* 周期任務自動執行時,距離該任務上次執行的時間間隔需要在120秒以上,否則任務推遲到下個周期啟動。手動啟動任務無時間間隔限制。
* 周期任務自動執行時,當前時間不得晚于任務開始時間120秒以上,否則任務推遲到下個周期啟動。
* 周期任務鎖定時無法自動執行,需要手動解鎖。
* OMS、LdapServer、DBService和NameNode備份任務開始執行前,若主管理節點“LocalBackup”分區可用空間小于20GB,則無法開始執行。
* 用戶在規劃備份恢復任務時,請嚴格根據業務邏輯、數據存儲結構、數據庫或表關聯關系,選擇需要備份或者恢復的數據。系統默認創建了一個間隔為24小時的周期備份任務“default”,支持全量備份OMS、LdapServer、DBService和NameNode數據到Linux本地磁盤。
規格
詳見下表:備份恢復特性規格
| 項目 | 規格 |
|---|---|
| 備份或恢復任務最大數量(個) | 100 |
| 同時運行的任務數量(個) | 1 |
| 等待運行的任務最大數量(個) | 199 |
| Linux本地磁盤最大備份文件大小(GB) | 600 |
詳見下表:“default”任務規格
| 項目 | OMS | LdapServer | DBService | NameNode |
|---|---|---|---|---|
| 備份周期 | 1小時 | |||
| 最大備份數 | 2個 | |||
| 單個備份文件最大大小 | 10MB | 20MB | 100MB | 1.5GB |
| 最大占用磁盤大小 | 20MB | 40MB | 200MB | 3GB |
| 備份數據保存位置 | 主備管理節點“數據存放路徑/LocalBackup/” |

說明“default”任務保存的備份數據,請用戶根據企業運維要求,定期轉移并保存到集群外部。