滾動重啟集群
更新時間 2024-11-29 09:37:17
最近更新時間: 2024-11-29 09:37:17
分享文章
本章節主要介紹翼MapReduce的滾動重啟集群操作。
操作場景
滾動重啟指當集群中服務角色升級更新或修改配置后,在盡可能不中斷業務的前提下的重啟操作。
如果需要批量為集群中所有服務進行重啟且不中斷業務,可執行集群滾動重啟操作。
說明
部分服務不支持滾動重啟,在執行滾動重啟集群的過程中,不支持滾動重啟的服務將進行普通重啟,業務可能會中斷。請根據界面提示是否可以執行操作。
如果修改了端口類等需要盡快生效的配置(例如服務端的端口),則不建議通過滾動重啟的方式使之生效,建議采用普通重啟。
對系統的影響
與普通重啟相比,滾動重啟不會導致服務業務中斷,但是滾動重啟將比普通重啟要花費更長的時間,且對應服務的吞吐量、性能等可能會受到影響。
操作步驟
- 登錄FusionInsight Manager。
- 選擇“集群 > 待操作集群的名稱 > 概覽 > 更多 > 滾動重啟”。
- 輸入當前登錄的用戶密碼確認身份,單擊“確定”。
- 根據實際情況調整相關參數,如下表所示。
滾動重啟參數
| 參數名稱 | 描述 |
|---|---|
| “只重啟集群內配置過期的實例” | 是否只重啟集群內修改過配置的實例。 |
| “啟用機架策略” | 是否啟用機架并發滾動重啟策略,只對滿足機架策略滾動重啟的角色(角色支持機架感知功能,且角色下的實例歸屬于2個或2個以上的機架)生效。 說明 該參數僅在滾動重啟HDFS、Yarn時可設置。 |
| “數據節點滾動重啟并發數” | 采用分批并發滾動重啟策略的數據節點實例每一個批次重啟的實例數,默認為1。 說明 該參數僅對同時滿足“采用并發滾動策略”和“實例為數據節點”兩個條件時才有效。 當啟用機架策略時,該參數將失效,集群以機架策略默認配置的最大實例數(默認值為20)作為一個機架內分批并發重啟的最大實例數。 該參數僅在滾動重啟HDFS、HBase、Yarn、Kafka、Storm、Flume時可設置。 HBase的RegionServer滾動重啟的并發數不支持手動配置,會根據RegionServer的節點數自行調整,調整規則為:30節點以內,每個批次1個節點;300節點以內,每個批次2個節點;300節點以上(含300節點),每個批次1%(向下取整)個節點。 |
| “批次時間間隔” | 滾動重啟實例批次之間的間隔時間,默認為0。 |
| “退服超時時間” | 角色實例在滾動重啟過程中的退服等待時間,默認為1800s。部分角色(例如HiveServer、JDBCServer)在滾動重啟前會暫時停止提供服務,該狀態下的實例不可再接入新的客戶端連接,而已經存在的連接需要等待一段時間才能完成,配置合適的超時時間參數能盡可能地保證業務不中斷。 說明 該參數僅在滾動重啟Hive、Spark2x時可設置。 |
| “批次容錯閾值” | 滾動重啟實例批次執行失敗容錯次數,默認為0,即表示任意一個批次的實例重啟失敗后,滾動重啟任務終止。 |
說明“數據節點滾動重啟并發數”、“批次時間間隔”、“批次容錯閾值”等高級參數需要根據實際情況合理設置,否則可能導致服務業務中斷或者嚴重影響性能,請謹慎調整。
例如:
“數據節點滾動重啟并發數”過大,同時重啟多個實例導致服務業務中斷或者由于剩余工作實例較少嚴重影響性能。
“批次容錯閾值”過大,某一批次實例失敗后繼續重啟下一批次實例,導致服務業務中斷。
- 單擊“確定”,等待滾動重啟完成。