支持滾動重啟
更新時間 2024-09-22 15:26:32
最近更新時間: 2024-09-22 15:26:32
分享文章
本章節主要介紹如何進行滾動重啟。
在修改了大數據組件的配置項后,需要重啟對應的服務來使得配置生效,使用普通重啟方式會并發重啟所有服務或實例,可能引起業務斷服。為了確保服務重啟過程中,盡量減少或者不影響業務運行,可以通過滾動重啟來按批次重啟服務或實例(對于有主備狀態的實例,會先重啟備實例,再重啟主實例)。滾動重啟方式的重啟時間比普通重啟時間久。
使用限制
- 請在低業務負載時間段進行滾動重啟操作。例如:在滾動重啟Kafka服務時候, 如果Kafka服務業務吞吐量很高(100M/s以上的情況下),會出現Kafka服務滾動重啟失敗的情況。例如:在滾動重啟HBase服務時候,如果原生界面上每個RegionServer上每秒的請求數超過1W,需要增大handle數來預防重啟過程中負載過大導致的RegionServer重啟失敗。
- 重啟前需要觀察當前HBase的負載請求數(原生界面上每個rs的請求數如果超過1W,需要增大handle數來預防到時候負載不過來)。
- 在集群Core節點個數小于6個的情況下,可能會出現業務短時間受影響的情況。
滾動重啟集群服務
- 在控制臺集群詳情頁面,單擊“前往翼MR Manager”。
- 進入到翼MR Manager操作界面,單擊“集群服務”菜單。
- 選擇指定集群服務,單擊集群服務ICON進入到集群服務的詳情頁面。
- 單擊“運維操作”,單擊“滾動重啟集群服務”。
- 彈出確認滾動重啟集群服務操作彈框,單擊確定。
- 進入到滾動重啟集群服務操作頁面,依次點擊“下一步”,滾動重啟任務完成后,單擊“完成”。
滾動重啟實例
- 登錄翼MR管理控制臺。
- 單擊“我的集群”,單擊指定的集群名稱,進入集群信息頁面。
- 單擊“翼MR Manager”tab,單擊“前往翼MR Manager”。
- 進入到翼MR Manager操作界面,單擊“集群服務”菜單。
- 選擇指定集群服務,單擊集群服務ICON進入到集群服務的詳情頁面。
- 單擊“角色實例”tab。
- 勾選需要操作角色實例前的復選框。
- 單擊“操作已選項”,單擊“滾動重啟實例”。
- 彈出確認滾動重啟實例操作彈框,單擊確定。
- 進入到滾動重啟實例操作頁面,依次點擊“下一步”,滾動重啟任務完成后,單擊“完成”。
滾動重啟參數說明
滾動重啟參數說明如下表所示。
| 參數名稱 | 描述 |
|---|---|
| 單批實例數 | 按照角色實例維度,每1個批次的并發實例數,例如HDFS-DataNode默認為1,輸入限制為int的最大值,僅支持輸入正整數,當角色實例數小于并發數時,以當前已有實例數為準。 例如:并發數設置為2,HDFS-DataNode的實例數為3,則第一批次執行的實例數是2,第2批次執行的實例數則為1。 |
| 批次間隔時 | 上個批次成功后與下個批次開始的間隔時間,默認30秒,取值范圍1-1800,僅支持輸入正整數,單位默認為:秒,不可改。 例如:設置時間為600S批次間隔則表示,前1個批次運行完成后,等待600S后開始下一個批次。 |
| 批次等待時間 | 上個批次開始后,開始下個批次的等待時間默認30秒,取值范圍1-1800,僅支持輸入正整數;單位默認為:秒,不可改。 例如:設置時間為600S批次等待則表示,前1個排次開始運行,等待600S后不管前一個批次是否完成運行,都開始下一個批次的運行。 |
| 實例容錯閾值 | 實例執行失敗的容錯次數為2,默認為0,輸入限制為int的最大值,僅支持輸入正整數。 例如:設置為0時,即表示任意一個角色實例的操作失敗后,滾動操作終止設置為2時,即表示任意3個角色實例的操作失敗后,滾動操作才會終止。 |