天翼云對象存儲ZOS高可用的關鍵技術揭秘
2022-06-01
對(dui)(dui)象存(cun)儲是(shi)一種將數據(ju)作(zuo)為對(dui)(dui)象進行管理的網絡存(cun)儲架構,早期常(chang)被用于數據(ju)備份歸檔等場景。隨著各行業數字化轉(zhuan)型深(shen)入,非結構化數據(ju)呈現爆發(fa)式增長,對(dui)(dui)象存(cun)儲作(zuo)為能(neng)夠提(ti)供可大規模擴展且經(jing)濟高(gao)(gao)效(xiao)的存(cun)儲方(fang)案,其應用愈發(fa)廣泛(fan),逐漸深(shen)入政務(wu)、金(jin)融(rong)等客戶(hu)的核心業務(wu)領(ling)域,這也對(dui)(dui)對(dui)(dui)象存(cun)儲的可靠(kao)性(xing)、可用性(xing)提(ti)出了更高(gao)(gao)要求(qiu)。
基于高(gao)可(ke)(ke)靠(kao)的(de)底座、完備(bei)的(de)安全(quan)防(fang)護、一體(ti)化的(de)運(yun)維(wei)管(guan)理(li)與容災設計(ji)體(ti)系,天(tian)翼云對(dui)象存儲ZOS為(wei)企(qi)業提供高(gao)可(ke)(ke)用、高(gao)可(ke)(ke)靠(kao)的(de)存儲服務,應對(dui)數據爆發式增長(chang)和(he)快(kuai)速查(cha)詢需求,保障更多政企(qi)客戶安全(quan)用云。

天(tian)翼云對象存儲ZOS整(zheng)體可用體系(xi)建(jian)設圖
天翼云對象存儲ZOS采用分布式系統架構設計,具有靈活伸縮的接入層和高可靠的分布式架構,可進一步提升存儲服務可用性。
靈活伸縮的接入層
ZOS能夠(gou)支持海量的(de)小(xiao)文件訪問和存(cun)(cun)儲。高達10億+數據量的(de)單桶存(cun)(cun)儲,是對對象存(cun)(cun)儲產品前端接入網絡高負(fu)載、高可用性的(de)挑戰。天翼(yi)云ZOS通過一整套基于CStor-LVS和CStor-Nginx的(de)架構來(lai)滿足這(zhe)一需(xu)求。

如(ru)上(shang)圖所(suo)示,ZOS通過前(qian)(qian)端接入全互聯高速(su)網(wang)絡,實現了(le)各個節(jie)(jie)點(dian)在(zai)負載上(shang)的(de)(de)完美均(jun)衡(heng)。接入節(jie)(jie)點(dian)間通過keepalived的(de)(de)方式實現了(le)LVS節(jie)(jie)點(dian)之間的(de)(de)高可(ke)用,在(zai)面對單(dan)節(jie)(jie)點(dian)故障(zhang)的(de)(de)場景時,能夠迅速(su)做出(chu)切換,保證業務的(de)(de)連(lian)續(xu)性(xing)(xing)(xing),服務可(ke)靠性(xing)(xing)(xing)高達99.995%。同(tong)時,在(zai)Router、LVS和Nginx側,分別實現了(le)各自的(de)(de)一致(zhi)性(xing)(xing)(xing)Hash,在(zai)前(qian)(qian)端流量持續(xu)增長的(de)(de)同(tong)時,能夠實現用戶(hu)無感知的(de)(de)熱伸(shen)縮。
高可靠分布式架構
當ZOS進(jin)(jin)行文(wen)件存儲(chu)時,會以對(dui)象(xiang)的方式將每個文(wen)件切(qie)片(pian),并通過Hash計(ji)算保證這些分片(pian)均勻離散地映射到每個存儲(chu)節點、每塊硬盤上。在(zai)存儲(chu)單元的選取上,可以根據每個硬盤所在(zai)服(fu)務器(qi)、機(ji)架、機(ji)房進(jin)(jin)行識別性選取,進(jin)(jin)而在(zai)多(duo)個物理(li)層級上滿足服(fu)務可靠性的要(yao)求(qiu)。

在底層架構上,ZOS支持多副本和EC糾刪碼的(de)策略,在充分保證數據(ju)準確性、安全性的(de)同時,可以根據(ju)需要靈活選擇(ze)冗余的(de)類型(xing),在容量利(li)用率、性能、可靠(kao)性上達(da)到滿(man)足客戶(hu)需求的(de)平衡。
天翼云對象存儲ZOS實現高可用還得益于一項關鍵技術:支持3AZ多活架構。
回顧(gu)數據存儲(chu)的災備(bei)技術發展,主要(yao)分為(wei)以下幾個階(jie)段:
離線備份:技(ji)術發(fa)展的(de)(de)早期(qi),人們(men)主要(yao)通過移動(dong)硬盤(pan)、光盤(pan)進(jin)行數據(ju)(ju)(ju)離線備(bei)(bei)份(fen)(也(ye)(ye)稱為(wei)冷備(bei)(bei)份(fen)),實現(xian)(xian)簡(jian)單,無需(xu)進(jin)行大規(gui)模(mo)的(de)(de)業(ye)務部署和(he)改(gai)造,但也(ye)(ye)存在效率低(di)下、安全(quan)性(xing)可靠性(xing)低(di)且恢復困難(nan)等問題。隨著行業(ye)內數據(ju)(ju)(ju)量(liang)的(de)(de)激增以及磁(ci)帶(dai)庫等備(bei)(bei)份(fen)介(jie)質的(de)(de)出現(xian)(xian),市(shi)場涌現(xian)(xian)了(le)大批的(de)(de)備(bei)(bei)份(fen)軟(ruan)件廠(chang)商,可實現(xian)(xian)大規(gui)模(mo)數據(ju)(ju)(ju)的(de)(de)自動(dong)化離線備(bei)(bei)份(fen)和(he)恢復。
在線備份:由于離線(xian)(xian)備份(fen)需(xu)要(yao)中斷(duan)在線(xian)(xian)業務(wu),且恢(hui)(hui)復(fu)(fu)操作(zuo)實現復(fu)(fu)雜,備份(fen)廠商結合應(ying)用(yong)側研(yan)發出在線(xian)(xian)備份(fen)技術(也稱(cheng)為(wei)熱備份(fen))。在線(xian)(xian)備份(fen)實施時無需(xu)中斷(duan)用(yong)戶業務(wu),結合快照(zhao)能夠(gou)便捷(jie)地(di)為(wei)用(yong)戶提供數據強一致性的備份(fen)和恢(hui)(hui)復(fu)(fu)能力。但是(shi)這種方式同樣存在數據備份(fen)和恢(hui)(hui)復(fu)(fu)周期長的問(wen)題。
兩站點雙活&復制:在備份(fen)技(ji)術(shu)發展的(de)同時,數(shu)據(ju)存(cun)儲領域也出現了跨站點的(de)容災技(ji)術(shu),最先出現的(de)是兩站點的(de)雙活、異步(bu)&同步(bu)復(fu)制技(ji)術(shu),具有數(shu)據(ju)在線(xian)復(fu)制備份(fen)、故障恢復(fu)時間(jian)短等優勢。
跨站點多活:伴隨著業務可靠性要求的持續(xu)升高,多站(zhan)點多活技(ji)術隨之誕生,帶(dai)來(lai)了比兩站(zhan)點容災更高的可靠性能(neng)力。傳(chuan)統技(ji)術包括兩站(zhan)點構建雙活+額(e)外一站(zhan)點復制(zhi)等。

對比幾種災備技(ji)術特征可以發現,在業(ye)務(wu)恢(hui)復(fu)難度(du)和(he)(he)(he)時長方面(mian)(mian),由于備份(fen)(fen)涉及多(duo)次的(de)數據(ju)拷貝和(he)(he)(he)回拷,恢(hui)復(fu)難度(du)較高且耗時較長;在資(zi)(zi)源利用(yong)率(lv)方面(mian)(mian),利用(yong)傳(chuan)統備份(fen)(fen)和(he)(he)(he)復(fu)制技(ji)術,備份(fen)(fen)數據(ju)目的(de)端(duan)通(tong)常不直接承載(zai)現網業(ye)務(wu),會(hui)造成部分業(ye)務(wu)資(zi)(zi)源浪費;在運維成本方面(mian)(mian),雙活、多(duo)活技(ji)術故障(zhang)場(chang)景業(ye)務(wu)感(gan)知(zhi)小(xiao),切換迅速快(kuai)捷,且無需人工(gong)設置備份(fen)(fen)/恢(hui)復(fu)規則,更方便客戶(hu)側運維人員操作和(he)(he)(he)實(shi)施。
另外,備(bei)(bei)份(fen)和傳統跨站點容災(zai)技術(shu)實(shi)際上還是基于(yu)數據復制技術(shu)實(shi)現的(de)(de),通常至少需(xu)要1:1的(de)(de)數據備(bei)(bei)份(fen),借助壓(ya)縮又會帶(dai)來額外的(de)(de)開銷,因此整體的(de)(de)存儲空間利用(yong)(yong)率也不高。但在實(shi)際使(shi)用(yong)(yong)中,很(hen)多(duo)用(yong)(yong)戶(hu)出于(yu)投資(zi)成(cheng)本和可靠性要求等多(duo)方面考慮,也會將備(bei)(bei)份(fen)和跨站點容災(zai)技術(shu)結合使(shi)用(yong)(yong)。
ZOS為適應云上(shang)業務(wu)的極速發展和高可用要求,在跨站點多活(huo)技術的基礎上(shang),研發實現(xian)了3AZ(Available Zone,云上(shang)架(jia)構下(xia)的可用區,通常為一個物理站點)多活(huo)的容(rong)災(zai)架(jia)構能(neng)力,每個AZ存(cun)儲(chu)節(jie)點融合為統(tong)一的存(cun)儲(chu)系統(tong),AZ間(jian)實現(xian)數據自由流動,對(dui)外提供無差別(bie)的對(dui)象(xiang)存(cun)儲(chu)服務(wu)。

ZOS在3AZ多(duo)(duo)活能力上(shang)具備(bei)以下(xia)幾大技術優勢,在保有傳統(tong)跨站(zhan)點多(duo)(duo)活技術高可靠(kao)性(xing)的(de)基(ji)礎上(shang),為(wei)用戶提(ti)供更(geng)好的(de)資源可用性(xing)和運(yun)維體驗。
業務無中斷:三站點(dian)多活架構,任意(yi)一(yi)個站點(dian)整體故障(zhang)業(ye)(ye)務(wu)不中斷,滿足生產系(xi)統業(ye)(ye)務(wu)穩定運行的(de)高可(ke)靠要求。
故障無感知:站點故障后業務自動切(qie)換,上層應(ying)用無感(gan)知(zhi),體驗更(geng)優。
恢復無干預:站(zhan)點恢(hui)復后,無需人工(gong)干預自(zi)動重(zhong)新上線,系統自(zi)動進行數據重(zhong)構,應用(yong)正常(chang)平穩運(yun)行。
資源高可用:通過(guo)跨站(zhan)點分布(bu)式糾(jiu)刪技(ji)術,充分利用各站(zhan)點存(cun)儲空(kong)間;3站(zhan)點多活同時承載(zai)業務,提(ti)供更優(you)于(yu)雙活&復(fu)制的(de)存(cun)儲資(zi)源(yuan)利用率。
可視化運維:云上可視化監控狀(zhuang)態和告警,輕松實現遠程(cheng)運維。
目前(qian),天翼云在華北(bei)、西安、蘇州等全國多地實現了3AZ部(bu)署。
隨著千行百業(ye)數字化轉型進程的不斷加速,云(yun)上業(ye)務(wu)連(lian)續(xu)性和可用性已成為(wei)企業(ye)深化信(xin)息(xi)化建(jian)設、保障業(ye)務(wu)可持(chi)續(xu)發展的重(zhong)要著力點。天翼(yi)云(yun)對象(xiang)存(cun)儲(chu)ZOS可為(wei)企業(ye)提供低(di)成本、高可用、易(yi)運維(wei)的對象(xiang)存(cun)儲(chu)服務(wu),讓企業(ye)數據存(cun)儲(chu)無后顧之憂,在數字時代的博弈中(zhong)穩中(zhong)求勝。