服務管理概述
更新時間 2024-11-29 09:37:39
最近更新時間: 2024-11-29 09:37:39
分享文章
本章節主要介紹翼MapReduce的服務管理操作。
總覽
登錄FusionInsight Manager以后,選擇“集群 > 待操作集群的名稱 > 服務”后,打開服務管理頁面,包含功能區和服務列表。
詳見下圖:服務管理頁面


功能區
服務管理頁面的功能區支持選擇視圖類型,以及通過服務類型篩選和搜索服務。通過高級搜索可以根據“運行狀態”和“配置狀態”選擇所需要的服務。
服務列表
服務管理頁面的服務列表包含了集群中所有已安裝的服務。如果選擇“平鋪視圖”,則顯示為窗格樣式;如果選擇“列表視圖”,則顯示為表格樣式。
說明本章節默認以“平鋪視圖”進行介紹。
服務列表可顯示每個服務的運行狀態、配置狀態、角色的類型以及對應的實例個數。同時可以執行部分服務維護任務,例如啟動、停止、重啟服務等。
服務運行狀態
| 狀態 | 說明 |
|---|---|
| 良好 | 表示服務當前運行正常。 |
| 故障 | 表示服務當前無法正常工作。 |
| 亞健康 | 表示服務部分增強功能無法正常工作。 |
| 未啟動 | 表示服務已停止。 |
| 未知 | 表示服務的初始狀態信息無法檢測。 |
| 正在啟動 | 表示服務正在執行啟動過程。 |
| 正在停止 | 表示服務正在執行停止過程。 |
| 啟動失敗 | 表示服務啟動操作失敗。 |
| 停止失敗 | 表示服務停止操作失敗。 |
說明
服務的運行狀態為“故障”,會觸發告警,請根據告警信息處理。
HBase、Hive、Spark和Loader可顯示“亞健康”(Subhealthy)狀態。
Yarn已安裝且不正常時,HBase處于“亞健康”狀態。如啟用多實例功能,則已安裝的所有HBase服務實例處于“亞健康”狀態。
HBase已安裝且狀態不正常時,Hive、Spark和Loader處于“亞健康”狀態。
啟用多實例功能后,任意一個HBase服務實例已安裝且不正常時,Loader處于“亞健康”狀態。
啟用多實例功能后,某一個HBase服務實例已安裝且不正常時,對應的Hive和Spark服務實例處于“亞健康”狀態,即HBase2已安裝且不正常時,Hive2和Spark2為“亞健康”狀態。
服務配置狀態
| 狀態 | 說明 |
|---|---|
| 已同步 | 表示服務所有參數配置已在集群內全部生效。 |
| 配置過期 | 表示修改服務參數后,最新的配置未同步且未生效,需要同步配置且重啟相應服務。可點擊配置狀態后的![]() 圖標查看過期的配置項。 |
| 失敗 | 表示同步參數配置過程中出現通信或讀寫異常等操作。嘗試使用“同步配置”恢復。 |
| 正在同步 | 表示正在同步服務參數配置。 |
| 未知 | 表示服務配置的初始狀態信息無法檢測。 |
服務列表中單擊服務對應菜單,可對服務進行簡單的維護管理操作,具體如下表所示。
基本維護管理功能
| 操作入口 | 說明 |
|---|---|
| “啟動服務” | 啟動集群中指定服務。 |
| “停止服務” | 將集群中指定服務停止。 |
| “重啟服務” | 將集群中指定服務重啟。 說明 某個服務可能被其他服務依賴,重啟該服務則導致其他服務不可用,需要勾選“同時重啟上層服務”。請根據對話框的服務列表確認是否可以執行操作,集群中由于依賴關系服務的重啟為串行進行。單個服務的重啟時長如下表“重啟時長”所示 |
| “滾動重啟服務” | 為集群中指定服務提供不中斷業務的重啟操作。具體參數配置可參考滾動重啟集群章節中的“滾動重啟參數”表 |
| “同步配置” | 為集群中指定服務啟用新的配置參數。 為集群中“配置狀態”為“配置過期”的服務,下發新的配置參數。 說明 部分服務同步配置后需重啟服務使配置生效。 |
重啟時長
| 服務名稱 | 重啟時長 | 啟動時長 | 附加說明 |
|---|---|---|---|
| ClickHouse | 4min | ClickHouseServer:2min ClickHouseBalancer:2min |
- |
| HDFS | 10min+x | NameNode:4min+x DataNode:2min JournalNode:2min Zkfc:2min |
x為NameNode元數據加載時長,每千萬文件大約耗時2分鐘,例如5000萬文件x為10min。由于受DataNode數據塊上報影響啟動時間有一定浮動。 |
| Yarn | 5min+x | ResourceManager:3min+x NodeManager:2min |
x為ResourceManager保留任務數恢復時長,每1萬保留任務大約需要1分鐘 |
| Mapreduce | 2min+x | JobHistoryServer:2min+x | x為歷史任務掃描時長,每10萬任務大約2.5min |
| ZooKeeper | 2min+x | quorumpeer:2min+x | x為加載znode節點時長,每100萬znode大約1min |
| Hive | 3.5min | HiveServer:3min MetaStore:1min30s WebHcat:1min Hive整體服務:3min |
- |
| Spark2x | 5min | JobHistory2x:5min SparkResource2x:5min JDBCServer2x:5min |
- |
| Flink | 4min | FlinkResource:1min FlinkServer:3min |
- |
| Kafka | 2min+x | Broker:1min+x | x為數據恢復時長,單實例20000 partition啟動所需時長大約2mins。 |
| Storm | 6min | Nimbus:3mins UI:1min Supervisor:1min Logviewer:1min |
- |
| Flume | 3min | Flume:2 min MonitorServer:1min |
- |

圖標查看過期的配置項。