集群生命周期管理
翼MR支持集群的生命周期管理包括創建集群和刪除集群。
- 創建集群:支持用戶定制集群的類型,組件范圍,各類型的節點數、虛擬機規格、可用區、VPC網絡、認證信息,翼MR將為用戶自動創建一個符合配置的集群,全程無需用戶參與;同時支持用戶在集群中運行自定義內容;支持快速創建多應用場景集群,比如創建Hadoop分析集群、HBase集群、Kafka集群。大數據平臺同時支持部署異構集群,在集群中存在不同規格的虛機,允許在CPU類型,硬盤容量,硬盤類型,內存大小靈活組合。在集群中支持多種虛機規格混合使用。
- 刪除集群:當按需計費的集群不再需要時(包括集群中的數據和配置),用戶可以選擇刪除集群,翼MR會將集群相關的資源全部刪除。
創建集群
通過在翼MR服務管理面,客戶可以按需創建翼MR集群,通過選擇集群所建的區域及使用的云資源規格,一鍵式創建適合企業業務的翼MR集群。翼MR服務會根據用戶選擇的集群類型、版本和節點規格,幫助客戶自動完成企業級大數據平臺的安裝部署和參數調優。
翼MR服務為客戶提供完全可控的大數據集群,客戶在創建時可設置虛擬機的登錄方式(密碼或者密鑰對),所創建的翼MR集群資源完全歸客戶所用。同時翼MR支持在最小可在兩節點4U8G的ECS上部署大數據集群,為客戶測試開發提供更多的靈活選擇。
翼MR集群類型包括分析集群、流式集群和混合集群。
- 分析集群:用來做離線數據分析,提供的是Hadoop體系的組件。
- 流式集群:用來做流處理任務,提供的是流式處理組件。
- 混合集群:既可以用來做離線數據分析,又可以用來做流處理任務,提供的是Hadoop體系的組件和流式處理組件。
- 自定義:根據業務需求,可以靈活搭配所需組件(翼MR 3.x及后續版本)。
翼MR集群節點類型包括Master節點、Core節點和Task節點。
- Master節點:集群中的管理節點,分布式系統的Master進程和Manager以及數據庫均部署在該節點;該類型節點不可擴容。該類型節點的處理能力決定了整個集群的管理上限,MRS服務支持將Master節點規格提高,以支持更大集群的管理。
- Core節點:支持存儲和計算兩種目標的節點,可擴容、縮容。因承載的數據存儲,因此在縮容時,為保證數據不丟失,有較多限制,無法進行彈性伸縮。
- Task節點:僅用于計算的節點,可擴容、縮容。因只承載計算任務,因此可以進行彈性伸縮。
翼MR創建集群方式支持自定義創建集群和快速創建集群兩種。
- 自定義創建集群:自定義創建可以靈活地選擇計費模式、配置項,針對不同的應用場景,可以選擇不同規格的彈性云服務器,全方位貼合您的業務訴求。
- 快速創建集群:用戶可以根據應用場景,快速創建對應配置的集群,提高了配置效率,更加方便快捷。當前支持快速創建Hadoop分析集群、HBase集群、Kafka集群。
? Hadoop分析集群:Hadoop分析集群完全使用開源Hadoop生態,采用YARN管理集群資源,提供Hive、Spark離線大規模分布式數據存儲和計算,SparkStreaming、Flink流式數據計算,Presto交互式查詢,Tez有向無環圖的分布式計算框等Hadoop生態圈的組件,進行海量數據分析與查詢。
? HBase集群:HBase集群使用Hadoop和HBase組件提供一個穩定可靠,性能卓越、可伸縮、面向列的分布式云存儲系統,適用于海量數據存儲以及分布式計算的場景,用戶可以利用HBase搭建起TB至PB級數據規模的存儲系統,對數據輕松進行過濾分析,毫秒級得到響應,快速發現數據價值。
? Kafka集群:Kafka集群使用Kafka和Storm組件提供一個開源高吞吐量,可擴展性的消息系統。廣泛用于日志收集、監控數據聚合等場景,實現高效的流式數據采集,實時數據處理存儲等。
刪除集群
翼MR服務支持用戶在不需要大數據集群時執行刪除集群操作,集群刪除后,所有大數據使用的相關云資源都會同時被釋放。刪除集群前,建議完成數據搬遷或者備份,確認集群無任何業務運行或者集群異常且經運維分析無法繼續提供服務時再執行集群刪除操作。對于數據存放在云硬盤EVS或直通盤的大數據集群,集群刪除后,數據也隨之刪除,強烈建議您慎重選擇刪除集群。
集群擴縮容
大數據集群的處理能力通常可以通過增加集群的節點數來橫向擴展,當集群規模不符合業務要求時,用戶可以通過該功能進行集群節點規模的調整,進行擴容或者縮容;在縮容節點時,翼MR會智能地選擇負載最少或者遷移數據量最小節點,并且在縮容過程中,縮容節點不再接收新的任務,正在執行的任務繼續執行,同時將該節點數據拷貝至其他節點,該節點進入退服狀態,當該節點任務長時間運行無法結束時,會遷移至其他節點運行,最大限度地減少對集群業務的影響。
擴容集群
目前支持擴容集群Core節點或Task節點,用戶可通過增加節點數量處理業務峰值負載。MRS集群節點擴容中和擴容后對現有集群的業務沒有影響,擴容后引起的數據傾斜問題可參考頁面內容進行規避。
包周期集群擴容
當用戶創建了翼MR包周期集群后,在訂購的周期之內,用戶的業務增長超過預期時,就會出現超出包周期訂單規模外的擴容訴求。翼MR服務支持包周期集群擴容能力,做到了在輕松幫助您完成擴容的前提下,讓您繼續享受著包周期的優惠。
您只需要在您業務需要的時候,打開翼MR服務頁面,點兩下鼠標,便可擴容出您需要的節點數。整個擴容過程無需后臺人工介入,只需幾分鐘,即可完美解決您遇到的日益上漲的業務數據壓力。
縮容集群
用戶可以根據業務需求量,通過簡單的縮減Core節點或者Task節點,對集群進行縮容,以使MRS擁有更優的存儲、計算能力,降低運維成本。用戶執行MRS集群縮容后,MRS服務將根據節點已安裝的服務類型自動選擇可以縮容的節點。
Core節點在縮容的時候,會對原節點上的數據進行遷移。業務上如果對數據位置做了緩存,客戶端自動刷新位置信息可能會影響時延。縮容節點可能會影響部分HBase on HDFS數據的第一次訪問響應時長,可以重啟HBase或者對相關的表Disable/Enable來避免。
Task節點本身不存儲集群數據,屬于計算節點,不存在節點數據遷移的問題。
自動彈性伸縮
特性簡介
隨著企業的數據越來越多,越來越多的企業選擇使用Spark/Hive等技術來進行分析,由于數據量大,處理任務繁重,資源的消耗比較高,因此使用成本也是比較高。當前并不是每個企業在每時每刻在進行分析,而一般是在一天的一個時間段內進行分析匯總,因此翼MR提供了彈性伸縮能力,可以自動在業務在繁忙時申請額外資源,業務不繁忙時釋放閑置資源,讓用戶按需使用,盡可能的幫助客戶降低使用成本,聚焦核心業務。
在大數據應用,尤其是周期性的數據分析處理場景中,需要根據業務數據的周期變化,動態調整集群計算資源以滿足業務需要。翼MR的彈性伸縮規則功能支持根據集群負載對集群進行彈性伸縮。此外,如果數據量為周期有規律的變化,并且希望在數據量變化前提前完成集群的擴縮容,可以使用翼MR的資源計劃特性。
翼MR服務支持規則和時間計劃兩種彈性伸縮的策略:
- 彈性伸縮規則:根據集群實時負載對Task節點數量進行調整,數據量變化后觸發擴縮容,有一定的延后性。
- 資源計劃:若數據量變化存在周期性規律,則可通過資源計劃在數據量變化前提前完成集群的擴縮容,避免出現增加或減少資源的延后。
彈性伸縮規則與資源計劃均可觸發彈性伸縮,兩者即可同時配置也可單獨配置。資源計劃與基于負載的彈性伸縮規則疊加使用可以使得集群節點的彈性更好,足以應對偶爾超出預期的數據峰值出現。
當某些業務場景要求在集群擴縮容之后,根據節點數量的變化對資源分配或業務邏輯進行更改時,手動擴縮容的場景客戶可以登錄集群節點進行操作。對于彈性伸縮場景,翼MR支持通過自定義彈性伸縮自動化腳本來解決。自動化腳本可以在彈性伸縮前后執行相應操作,自動適應業務負載的變化,免去了人工操作。同時,自動化腳本給用戶實現個性需求提供了途徑,完全自定義的腳本與多個可選的執行時機基本可以滿足用戶的各項需求,使彈性伸縮更具靈活性。
客戶價值
翼MR的自動彈性伸縮可以幫助用戶實現以下價值。
- 降低使用成本
部分企業在進行批量分析時,并不是時時刻刻都在進行分析,例如一般都存在數據持續接入,而到了特定時間段(例如凌晨3點)進行批量分析,可能僅需要消耗2小時。
翼MR提供的彈性伸縮能力,可以幫助客戶,在晚上的時候,將分析節點擴容到指定規模,而計算完畢后,則自動釋放計算節點,盡可能的降低使用成本。
- 平衡突發查詢
大數據集群上,由于有大量的數據,企業會經常面臨臨時的分析任務,例如支撐企業決策的臨時數據報表等,都會導致對于資源的消耗在極短時間內劇增。翼MR提供的彈性伸縮能力,可以讓突發大數據分析時,可以及時的補充計算節點,避免因為計算能力不足,導致業務宕機,使用戶無需創建額外資源,當突發事件結束后,翼MR會自動判斷縮容時機,自動完成縮容。
- 聚焦核心業務
大數據作為二次開發平臺,開發人員非常難判斷具體的資源消耗,因為查詢分析的條件復雜性(例如全局排序,過濾,合并等)以及數據的復雜性,例如增量數據的不確定性等,都會導致預估多少計算量是非常困難的行為,而使用彈性伸縮能力,可以讓業務人員專注于業務開發,無需分心再做各種資源評估。
創建Task節點
特性簡介
支持創建Task節點,只作為計算節點,不存放持久化的數據,是實現彈性伸縮的基礎。
客戶價值
在翼MR服務只作為計算資源的場景下,使用Task節點可以節省成本,并可以更加方便快捷地對集群節點進行擴縮容,滿足用戶對集群計算能力隨時增減的需求。
用戶場景
當集群數據量變化不大而集群業務處理能力需求變化比較大,大的業務處理能力只是臨時需要,此時選擇添加Task節點。
- 臨時業務量增大,如年底報表處理。
- 需要在短時間內處理完原來需要處理很久的任務,如一些緊急分析任務。
升級Master節點規格
翼MR大數據集群采用Manager實現集群的管理,而管理集群的相關服務,如HDFS存儲系統的NameNode,Yarn資源管理的ResourceManager,以及MRS的Manager管理服務都部署在集群的Master節點。
隨著新業務的上線,集群規模不斷擴大,Master節點承擔的管理負荷也越來越高,企業用戶面臨CPU負載過高,內存使用率超過閾值的問題。通常自建大數據集群需要完成數據搬遷,采購升級節點硬件配置實現Master規格提升,而MRS服務借助云服務的優勢,實現一鍵式Master節點升級,并在升級過程中通過Master節點的主備HA保證已有業務的不間斷,方便快捷幫助用戶解決主節點規格升級問題。
隔離主機
用戶發現某個主機出現異常或故障,無法提供服務或影響集群整體性能時,可以臨時將主機從集群可用節點排除,使客戶端訪問其他可用的正常節點。在為集群安裝補丁的場景中,也支持排除指定節點不安裝補丁。隔離主機僅支持隔離非管理節點。
主機隔離后該主機上的所有角色實例將被停止,且不能對主機及主機上的所有實例進行啟動、停止和配置等操作。另外,主機隔離后無法統計并顯示該主機硬件和主機上實例的監控狀態及指標數據。
標簽管理
標簽是集群的標識,為集群添加標簽,可以方便用戶識別和管理擁有的集群資源。翼MR服務通過與標簽管理服務(TMS)關聯,可以讓擁有大量云資源的用戶,通過給云資源打標簽,快速查找具有同一標簽屬性的云資源,進行統一檢視、修改、刪除等管理操作,方便用戶對大數據集群及其他相關云資源的統一管理。
您可以在創建集群時添加標簽,也可以在集群創建完成后,在集群的詳情頁添加標簽,您最多可以給集群添加10個標簽。
集群運維
告警管理
翼MR可以實時監控大數據集群,通過告警和事件可以識別系統健康狀態。同時翼MR也支持用戶自定義配置監控與告警閾值用于關注各指標的健康情況,當監控數據達到告警閾值,系統將會觸發一條告警信息。
翼MR還可以與消息通知服務(SMN)的消息服務系統對接,將告警信息通過短信或者郵件等形式推送給用戶。
補丁管理
翼MR集群支持補丁操作,會及時發布開源大數據組件的補丁。用戶能夠在翼MR集群管理頁面上查看到運行集群相關的補丁發布信息,包括其修復問題的詳細說明及影響場景,客戶可以根據業務運行情況自行選擇是否安裝補丁。補丁安裝過程是一鍵式操作,無需人工干預,通過滾動安裝,補丁升級不會停止業務,保障用戶集群長期可用。
翼MR服務可以展示詳細的補丁安裝過程,補丁管理也支持補丁的卸載和失敗回滾。
說明翼MR 3.x及之后版本暫不支持在管理控制臺執行補丁管理操作。
運維支撐
翼MR提供的集群的資源是完全屬于用戶的,通常情況下,當集群出現問題,需要運維人員支撐時,運維人員是無法直接訪問的。為了更好的服務客戶,翼MR提供兩種方式來減少定位問題時的信息傳遞:
- 日志共享:用戶可以在翼MR 頁面發起日志共享,選擇日志范圍共享給運維人員,以便運維人員在不接觸集群的情況下幫助定位問題。
- 運維授權:翼MR服務提供運維授權功能,用戶在使用翼MR集群過程中,發生問題可以在翼MR頁面發起運維授權,由運維人員幫助客戶快速定位問題,用戶可以隨時收回該授權。
健康檢查
翼MR為用戶提供界面化的系統運行環境自動檢查服務,幫助用戶實現一鍵式系統運行健康度巡檢和審計,保障系統的正常運行,降低系統運維成本。用戶查看檢查結果后,還可導出檢查報告用于存檔及問題分析。
消息通知
特性簡介
大數據集群運行過程中經常會進行如下操作:
- 大數據集群經常會發生變更,比如擴容、縮容集群。
- 業務數據量突然變化,集群觸發彈性伸縮。
- 相關業務結束,需要終止大數據集群等。
用戶想要及時得知這些操作是否成功了,以及當集群出現大數據服務不可用,或節點故障時,用戶希望不用隔段時間就登錄集群查看,而是可以及時地收到告警通知。翼MR聯合消息通知服務(SMN),可以將以上信息主動地通知到用戶的手機及郵箱,讓維護更加省心省力。
客戶價值
配置消息通知后,可以實時給用戶發送翼MR集群健康狀態,用戶可以通過手機短信或郵箱實時接收到翼MR集群變更及組件告警信息。翼MR可以幫助用戶輕松運維,實時監控,實時發送告警,操作靈活,大數據業務部署更加省心省力。
特性描述
翼MR聯合消息通知服務(SMN),采用主題訂閱模型,提供一對多的消息訂閱以及通知功能,能夠實現一站式集成多種推送通知方式。
首先,作為主題擁有者,我們可以先創建一個主題,并對主題設置訪問控制權限來決定哪些發布者和訂閱者可以通過該主題進行交流。翼MR將集群消息發送至您有權限發布消息的主題,然后所有訂閱了該主題的訂閱者(可以是手機短信、郵箱等)都將收到集群變更以及組件告警的消息。