一.容災分類
從其對系統的保護程度來分,可以將容災系統分為:數據容災和應用容災
1. 數據容災
數據容災,指建立一個異地的數據系統,該系統是本地關鍵應用數據的一個可用復制。在本地數據及整個應用系統出現災難時,系統至少在異地保存有一份可用的關鍵業務的數據。該數據可以是與本地生產數據的完全實時復制,也可以比本地數據略微落后,但一定是可用的。采用的主要技術是數據備份和數據復制技術。數據容災技術,又稱為異地數據復制技術,按照其實現的技術方式來說,主要可以分為同步傳輸方式和異步傳輸方式(各廠商在技術用語上可能有所不同),另外,也有如“半同步”這樣的方式。半同步傳輸方式基本與同步傳輸方式相同,只是在Read占I/O比重比較大時,相對同步傳輸方式,可以略微提高I/O的速度。而根據容災的距離,數據容災又可以分成遠程數據容災和近程數據容災方式。
2. 應用容災
所謂應用容災,是在數據容災的基礎上,在異地建立一套完整的與本地生產系統相當的備份應用系統(可以是互為備份),在災難情況下,遠程系統迅速接管業務運行。數據容災是抗御災難的保障,而應用容災則是容災系統建設的目標。建立這樣一個系統是相對比較復雜的,不僅需要一份可用的數據復制,還要有包括網絡、主機、應用、甚至IP等資源,以及各資源之間的良好協調。主要的技術包括負載均衡、集群技術。數據容災是應用容災的基礎,應用容災是數據容災的目標。在選擇容災系統的構造時,還要建立多層次的廣域網絡故障切換機制。本地的高可用系統指在多個服務器運行一個或多種應用的情況下,應確保任意服務器出現任何故障時,其運行的應用不能中斷,應用程序和系統應能迅速切換到其它服務器上運行,即本地系統集群和熱備份。
在遠程的容災系統中,要實現完整的應用容災,既要包含本地系統的安全機制、遠程的數據復制機制,還應具有廣域網范圍的遠程故障切換能力和故障診斷能力。也就是說,一旦故障發生,系統要有強大的故障診斷和切換策略制訂機制,確保快速的反應和迅速的業務接管。實際上,廣域網范圍的高可用能力與本地系統的高可用能力應形成一個整體,實現多級的故障切換和恢復機制,確保系統在各個范圍的可靠和安全。
集群系統是在冗余的通常可用性系統基礎之上,運行高可靠性軟件而構成。高可靠性軟件用于自動檢測系統的運行狀態,在一臺服務器出現故障的情況下,自動地把設定的服務轉到另一臺服務器上。當運行服務器提供的服務不可用時,備份服務器自動接替運行服務器的工作而不用重新啟動系統,而當運行服務器恢復正常后,按照使用者的設定以自動或手動方式將服務切換到運行服務上運行。備份服務器除了在運行服務器出現故障時接替其服務,還可以執行其他應用程序。因此,一臺性能配備充分的主機可同時作為某一服務的運行服務器和另一服務的備份服務器使用,即兩臺服務器互為備份。一臺主機可以運行多個服務,也可作為多個服務的備份服務器。
數據容災系統,對于IT而言,就是為計算機信息系統提供的一個能應付各種災難的環境。當計算機系統在遭受如火災、水災、地震、戰爭等不可抗拒的自然災難以及計算機犯罪、計算機病毒、掉電、網絡/通信失敗、硬件/軟件錯誤和人為操作錯誤等人為災難時,容災系統將保證用戶數據的安全性(數據容災),甚至,一個更加完善的容災系統,還能提供不間斷的應用服務(應用容災)。可以說,容災系統是數據存儲備份的最高層次。
二.備份分類
1. 同城備份
是指將生產中心的數據備份在本地的容災備份機房中。它的特點是速度相對較快。由于是在本地,因此建議同時做接管。但是它的缺點是一旦發生大災大難,將無法保證本地容災備份機房中的數據和系統仍可用。
2. 異地備份
通過互聯網TCP/IP協議,將生產中心的數據備份到異地。備份時要注意“一個三”和“三個不原則”,必須備份到300公里以外,并且不能在同一地震帶,不能在同地電網,不能在同一江河流域。這樣即使發生大災大難,也可以在異地進行數據回退。當然,異地備份,如果想做接管需要專線連接,一般需要在同一網段內才能實現業務的接管。
當然,最好是能夠建立起“兩地三中心”的模式,既做同城備份也做異地備份,這樣數據的安全性會高得多 。
三.數據容災備份的等級
國際標準SHARE78 對容災系統的定義有七個層次:從最簡單的僅在本地進行磁帶備份,到將備份的磁帶存儲在異地,再到建立應用系統實時切換的異地備份系統,恢復時間也可以從幾天到小時級到分鐘級、秒級或零數據丟失等。目前針對這七個層次,都有相應的容災方案,所以,用戶在選擇容災方案時應重點區分它們各自的特點和適用范圍,結合自己對容災系統的要求判斷選擇哪個層次的方案。
0級:無異地備份
0等級容災方案數據僅在本地進行備份,沒有在異地備份數據,未制定災難恢復計劃。這種方式是成本最低的災難恢復解決方案,但不具備真正災難恢復能力。
在這種容災方案中,最常用的是備份管理軟件加上磁帶機,可以是手工加載磁帶機或自動加載磁帶機。它是所有容災方案的基礎,從個人用戶到企業級用戶都廣泛采用了這種方案。其特點是用戶投資較少,技術實現簡單。缺點是一旦本地發生毀滅性災難,將丟失全部的本地備份數據,業務無法恢復。
1級:實現異地備份
第1級容災方案是將關鍵數據備份到本地磁帶介質上,然后送往異地保存,但異地沒有可用的備份中心、備份數據處理系統和備份網絡通信系統,未制定災難恢復計劃。災難發生后,使用新的主機,利用異地數據備份介質(磁帶)將數據恢復起來。
這種方案成本較低,運用本地備份管理軟件,可以在本地發生毀滅性災難后,恢復從異地運送過來的備份數據到本地,進行業務恢復。但難以管理,即很難知道什么數據在什么地方,恢復時間長短依賴于何時硬件平臺能夠被提供和準備好。以前被許多進行關鍵業務生產的大企業所廣泛采用,作為異地容災的手段。目前,這一等級方案在許多中小網站和中小企業用戶中采用較多。對于要求快速進行業務恢復和海量數據恢復的用戶,這種方案是不能夠被接受的。
2級:熱備份站點備份
第2級容災方案是將關鍵數據進行備份并存放到異地,制定有相應災難恢復計劃,具有熱備份能力的站點災難恢復。一旦發生災難,利用熱備份主機系統將數據恢復。它與第1級容災方案的區別在于異地有一個熱備份站點,該站點有主機系統,平時利用異地的備份管理軟件將運送到異地的數據備份介質(磁帶)上的數據備份到主機系統。當災難發生時可以快速接管應用,恢復生產。
由于有了熱備中心,用戶投資會增加,相應的管理人員要增加。技術實現簡單,利用異地的熱備份系統,可以在本地發生毀滅性災難后,快速進行業務恢復。但這種容災方案由于備份介質是采用交通運輸方式送往異地,異地熱備中心保存的數據是上一次備份的數據,可能會有幾天甚至幾周的數據丟失。這對于關鍵數據的容災是不能容忍的。
3級:在線數據恢復
第3級容災方案是通過網絡將關鍵數據進行備份并存放至異地,制定有相應災難恢復計劃,有備份中心,并配備部分數據處理系統及網絡通信系統。該等級方案特點是用電子數據傳輸取代交通工具傳輸備份數據,從而提高了災難恢復的速度。利用異地的備份管理軟件將通過網絡傳送到異地的數據備份到主機系統。一旦災難發生,需要的關鍵數據通過網絡可迅速恢復,通過網絡切換,關鍵應用恢復時間可降低到一天或小時級。這一等級方案由于備份站點要保持持續運行,對網絡的要求較高,因此成本相應有所增加。
4級:定時數據備份
第4級容災方案是在第3級容災方案的基礎上,利用備份管理軟件自動通過通信網絡將部分關鍵數據定時備份至異地,并制定相應的災難恢復計劃。一旦災難發生,利用備份中心已有資源及異地備份數據恢復關鍵業務系統運行。
這一等級方案特點是備份數據是采用自動化的備份管理軟件備份到異地,異地熱備中心保存的數據是定時備份的數據,根據備份策略的不同,數據的丟失與恢復時間達到天或小時級。由于對備份管理軟件設備和網絡設備的要求較高,因此投入成本也會增加。但由于該級別備份的特點,業務恢復時間和數據的丟失量還不能滿足關鍵行業對關鍵數據容災的要求。
5級:實時數據備份
第5級容災方案在前面幾個級別的基礎上使用了硬件的鏡像技術和軟件的數據復制技術,也就是說,可以實現在應用站點與備份站點的數據都被更新。數據在兩個站點之間相互鏡像,由遠程異步提交來同步,因為關鍵應用使用了雙重在線存儲,所以在災難發生時,僅僅很小部分的數據被丟失,恢復的時間被降低到了分鐘級或秒級。由于對存儲系統和數據復制軟件的要求較高,所需成本也大大增加。
這一等級的方案由于既能保證不影響當前交易的進行,又能實時復制交易產生的數據到異地,所以這一層次的方案是目前應用最廣泛的一類,正因為如此,許多廠商都有基于自己產品的容災解決方案。如存儲廠商EMC等推出的基于智能存儲服務器的數據遠程拷貝;系統復制軟件提供商VERITAS等提供的基于系統軟件的數據遠程復制;數據庫廠商Oracle和Sybase提供的數據庫復制方案等。但這些方案有一個不足之處就是異地的備份數據是處于備用(Standby)備份狀態而不是實時可用的數據,這樣災難發生后需要一定時間來進行業務恢復。更為理想的應該是備份站點不僅僅是一個分離的備份系統,而且還處于活動狀態,能夠提供生產應用服務,所以可以提供快速的業務接管,而備份數據則可以雙向傳輸,數據的丟失與恢復時間達到分鐘甚至秒級。
6級:零數據丟失
第6級容災方案是災難恢復中最昂貴的方式,也是速度最快的恢復方式,它是災難恢復的最高級別,利用專用的存儲網絡將關鍵數據同步鏡像至備份中心,數據不僅在本地進行確認,而且需要在異地(備份)進行確認。因為,數據是鏡像地寫到兩個站點,所以災難發生時異地容災系統保留了全部的數據,實現零數據丟失。
這一方案在本地和遠程的所有數據被更新的同時,利用了雙重在線存儲和完全的網絡切換能力,不僅保證數據的完全一致性,而且存儲和網絡等環境具備了應用的自動切換能力。一旦發生災難,備份站點不僅有全部的數據,而且應用可以自動接管,實現零數據丟失的備份。通常在這兩個系統中的光纖設備連接中還提供冗余通道,以備工作通道出現故障時及時接替工作,當然由于對存儲系統和存儲系統專用網絡的要求很高,用戶的投資巨大。采取這種容災方式的用戶主要是資金實力較為雄厚的大型企業和電信級企業。但在實際應用過程中,由于完全同步的方式對生產系統的運行效率會產生很大影響,所以適用于生產交易較少或非實時交易的關鍵數據系統,目前采用該級別容災方案的用戶還很少。