產品定義
應用容災多活包含架構加管控的解決方案,提供引導式的應用架構改造接入和一站式的云產品協同管理,實現應用異地集群間日常態的流量分發多活以及容災態的數據一致性保障,助力企業的容災穩定性建設,提升客戶應用的業務連續性。
容災的不同等級
容災的基本方式,是在生產站點以外建立冗余站點,災難發生后,冗余站點可以接管用戶正常的業務,達到業務不間斷的目的。按照容災系統對應用系統的保護程度可以分為數據級容災、應用級容災和業務級容災。
數據級容災:僅將生產中心的數據復制到容災中心,在生產中心出現故障時,僅能實現存儲系統的接管或數據的恢復。基于數據級容災實現業務恢復的速度較慢,需要在容災站點恢復數據實例和部署應用,通常情況下RTO在天級別。
應用級容災:在數據級容災的基礎上,增加對生產中心系統的基本復制,容災中心建立起一套和本地生產環境相當的備份環境,包括主機、網絡、應用等資源。當生產系統發生災難時,異地系統可以提供完全可用的生產環境,應用級容災的RTO通常在小時級別。
業務級容災:容災中心具備業務系統的完全復制,生產中心與容災中心對業務請求同時進行處理,故障時只需切換業務流量,能夠確保業務持續可用。采用這種方式,業務恢復過程的自動化程度高,RTO可以做到分鐘級別。
災備容災建立在數據級和應用級容災基礎之上,在異地冗余一套應用系統的部分或全部備份,平時不對外提供服務,根據備份時效和顆粒度不同,業務在災難發生時按照約定的時間和版本恢復運行。
多活容災是業務級容災,應用系統分布在多個站點同時對外提供服務,與災備模式相比擁有更高的資源利用率和系統擴展性,當災難發生時,多活系統可以實現分鐘級業務流量切換,用戶甚至感受不到災難發生。
容災的效果評估
容災系統的建設目標是為了保障災難發生時業務不中斷,度量業務連續性可以采用兩個可用度相關指標來評估:
MTBF(Mean Time Between Failure):指系統在兩次故障之間的平均時間。
MTTR(Mean Time To Repair):指系統從故障發生到故障修復完成所需的平均時間。
應用從單點向集群發展,對局部故障的消納能力有了長足的進步,但災難是不可避免的,容災的重點不在于降低系統故障發生的概率,即更長的MTBF,而在于提升系統故障恢復的效率,即更短的MTTR。
容災恢復的質量不單指盡可能快地恢復業務運行,也包括恢復盡可能多的業務數據,通過RTO和RPO來衡量:
RTO(Recovery Time Objective):恢復時間目標,指災難發生后,業務系統從停止服務到恢復服務的時間要求,也即能夠容忍服務停止的最長時間。
RPO(Recovery Point Objective):恢復點目標,指災難發生后,業務數據和狀態能夠保留的時間要求,也即能夠容忍數據丟失的最大范圍。
從單純的數據備份,到應用災備,再到應用多活,容災等級從數據級發展到應用級,最后到業務級,要求越來越短的RTO和越來越小的RPO。
但容災系統的設計受多方面因素影響,比如應用運行現狀、業務可選的技術棧、用戶能夠投入的技術和經濟開銷等,這些都將構成容災建設的成本,決定用戶可選擇的容災架構。
容災解決的問題
傳統的災備容災在實際落地中會面臨一些問題:
如果選擇成本優先策略,災備中心日常只保留必要的冗余數據,災難接管時再逐步恢復數據實例和業務系統,操作成本高,恢復時間無法預期,無法保障RTO;
如果選擇效率優先策略,災備中心日常保持完整的業務應用復刻,由于災備中心平時不提供服務,整個災備資源處于閑置狀態,成本浪費比較嚴重;
因為災備中心平時不提供服務,關鍵時刻不能保證災備中心能否正確接管業務,災難真正發生時不一定敢切。
應用容災多活是應用高可用服務下的多活容災解決方案,在架構上比災備容災更具優勢,能突破單地域資源瓶頸,擁有更高的資源利用率和系統擴展性,具備如下產品優勢:
一站接入管控:應用分層管理,接入層、服務層、數據層等統一納管調度;
快速恢復預期:確定的流程編排,一鍵容災切換,分鐘級業務恢復能力;
高效運維監控:組件協同管理,全鏈路監控告警,容災運維簡單高效。