在修改了大數據組件的配置項后,需要重啟對應的服務來使得配置生效,使用普通重啟方式會并發重啟所有服務或實例,可能引起業務斷服。為了確保服務重啟過程中,盡量減少或者不影響業務運行,可以通過滾動重啟來按批次重啟服務或實例(對于有主備狀態的實例,會先重啟備實例,再重啟主實例)。滾動重啟方式的重啟時間比普通重啟時間久。
當前MRS集群中,服務和實例是否支持滾動重啟如下表所示。
服務 實例 是否支持滾動重啟 HDFS
NameNode 是
Zkfc
JournalNode
HttpFS
DataNode
Yarn
ResourceManager
是
NodeManager
Hive
MetaStore
是
WebHCat
HiveServer
Mapreduce
JobHistoryServer
是
HBase
HMaster
是
RegionServer
ThriftServer
RESTServer
Spark
JobHistory
是
JDBCServer
SparkResource
否
Hue
Hue
否
Tez
TezUI
否
Loader
Sqoop
否
Zookeeper
Quorumpeer
是
Kafka
Broker
是
MirrorMaker
否
Flume
Flume
是
MonitorServer
Storm
Nimbus
是
UI
Supervisor
Logviewer
使用限制
- 請在低業務負載時間段進行滾動重啟操作。
例如:在滾動重啟kafka服務時候, 如果kafka服務業務吞吐量很高(100M/s以上的情況下),會出現kafka服務滾動重啟失敗的情況。
例如:在滾動重啟HBase服務時候,如果原生界面上每個RegionServer上每秒的請求數超過1W,需要增大handle數來預防重啟過程中負載過大導致的RegionServer重啟失敗。
- 重啟前需要觀察當前hbase的負載請求數(原生界面上每個rs的請求數如果超過1W,需要增大handle數來預防到時候負載不過來)
- 在集群Core節點個數小于6個的情況下,可能會出現業務短時間受影響的情況。
- 請優先使用滾動重啟操作來重啟實例或服務,并勾選“僅重啟配置過期的實例”。
滾動重啟服務
在MRS Manager,單擊“服務管理”,選擇需要滾動重啟的服務,進入服務頁面。
- 在“服務狀態”頁簽單擊“更多”,選擇“滾動重啟服務”。
- 輸入管理員密碼后,彈出“滾動重啟服務”頁面,勾選“僅重啟配置過期的實例”,單擊確認,開始滾動重啟服務。
- 滾動重啟任務完成后,單擊“完成”。
滾動重啟實例
在MRS Manager,單擊“服務管理”,選擇需要滾動重啟的服務,進入服務頁面。
- 在“實例”頁簽,勾選要重啟的實例,單擊“更多”,選擇“滾動重啟實例”。
- 輸入管理員密碼后,彈出“滾動重啟實例”頁面,勾選“僅重啟配置過期的實例”,單擊確認,開始滾動重啟實例。
- 滾動重啟任務完成后,單擊“完成”。
滾動重啟集群
在MRS Manager,單擊“服務管理”,進入服務管理頁面。
- 單擊“更多”,選擇“滾動重啟集群”。
- 輸入管理員密碼后,彈出“滾動重啟集群”頁面,勾選“僅重啟配置過期的實例”,單擊確認,開始滾動重啟集群。
- 滾動重啟任務完成后,單擊“完成”。
滾動重啟參數說明
滾動重啟參數說明如下表所示。
| 參數名稱 | 描述 |
|---|---|
| 僅重啟配置過期的實例 | 是否只重啟集群內修改過配置的實例。 |
| 數據節點滾動重啟并發數 | 采用分批并發滾動重啟策略的數據節點實例每一個批次重啟的實例數,默認為1,取值范圍為1~20。只對數據節點有效。 |
| 批次時間間隔 | 滾動重啟實例批次之間的間隔時間,默認為0,取值范圍為0~2147483647,單位為秒。 說明:設置批次時間間隔參數可以增加滾動重啟期間大數據組件進程的穩定性。建議設置該參數為非默認值,例如10。 |
| 批次容錯閾值 | 滾動重啟實例批次執行失敗容錯次數,默認為0,即表示任意一個批次的實例重啟失敗后,滾動重啟任務終止。取值范圍為0~214748364。 |
典型場景操作步驟
在MRS Manager,單擊“服務管理”,選擇HBase,進入HBase服務頁面。
- 單擊“服務配置”頁簽,修改HBase某個參數并保存配置,在出現如下彈窗后,單擊“確定”進行保存。

說明不要勾選“重新啟動受影響的服務或實例”,該處重啟是普通重啟方式,會并發重啟所有服務或實例,引起業務斷服。
- 保存配置完成后,單擊“完成”。
- 選擇“服務狀態”頁簽。
- 在“服務狀態”頁簽單擊“更多”,選擇“滾動重啟服務”。
- 輸入管理員密碼后,彈出“滾動重啟服務”頁面,勾選“僅重啟配置過期的實例”,單擊確認,開始滾動重啟。
- 滾動重啟任務完成后,單擊“完成”。