告警解釋
告警模塊按120秒周期檢測HBase服務狀態。當HBase服務不可用時產生該告警。
HBase服務恢復時,告警清除。
說明若集群啟用了多實例功能且安裝了多個HBase服務,請根據“定位信息”的“服務名”值來確定具體產生告警的HBase服務。例如HBase1服務不可用,則“定位信息”中顯示服務名=HBase1,處理步驟中的操作對象也應由HBase調整為HBase1。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 19000 | 緊急 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
對系統的影響
無法進行數據讀寫和創建表等操作。
可能原因
- ZooKeeper服務異常。
- HDFS服務異常。
- HBase服務異常。
- 網絡異常。
處理步驟
檢查ZooKeeper服務狀態
1.在FusionInsight Manager的服務列表中,查看ZooKeeper運行狀態是否為“良好”。
- 是,執行步驟5。
- 否,執行步驟2。
2.在告警列表中,查看是否有“ALM-13000 ZooKeeper服務不可用”告警產生。
- 是,執行步驟3。
- 否,執行步驟5。
3.參考“ALM-13000 ZooKeeper服務不可用”的處理步驟處理該故障。
4.等待幾分鐘后檢查本告警是否恢復。
- 是,處理完畢。
- 否,執行步驟5。
檢查HDFS服務狀態
5.在告警列表中,查看是否有“ALM-14000 HDFS服務不可用”告警產生。
- 是,執行步驟6。
- 否,執行步驟8。
6.參考“ALM-14000 HDFS服務不可用”的處理步驟處理該故障。
7.等待幾分鐘后檢查本告警是否恢復。
- 是,處理完畢。
- 否,執行步驟8。
8.在FusionInsight Manager,選擇“集群 > 待操作集群的名稱 > 服務 > HDFS”,查看HDFS“安全模式”是否為“ON”。
- 是,執行步驟9。
- 否,執行步驟12。
9.以root用戶登錄HDFS客戶端。執行cd命令進入客戶端安裝目錄,然后執行 source bigdata_env 。
如果集群采用安全版本,要進行安全認證。預先向管理員獲取hdfs用戶的密碼,執行kinit hdfs命令,按提示輸入密碼。
10.執行以下命令手動退出安全模式。
hdfs dfsadmin -safemode leave
11.等待幾分鐘后檢查本告警是否恢復。
- 是,處理完畢。
- 否,執行步驟12。
檢查HBase服務狀態
12.在FusionInsight Manager,選擇“集群 > 待操作集群的名稱 > 服務 > HBase”。
13.查看2個HMaster的狀態是否為一“主”一“備”。
- 是,執行步驟15。
- 否,執行步驟14。
14.單擊“實例”,選擇非主狀態的HMaster實例,單擊“更多 > 重啟實例”重啟HMaster,再次查看2個HMaster的狀態是否為一“主”一“備”。
- 是,執行步驟15。
- 否,執行步驟21。
15.選擇“集群 > 待操作集群的名稱 > 服務 > HBase > HMaster(主)”,進入HMaster的WebUI頁面。

說明admin用戶默認不具備其他組件的管理權限,如果訪問組件原生界面時出現因權限不足而打不開頁面或內容顯示不全時,可手動創建具備對應組件管理權限的用戶進行登錄。
16.查看Region Servers下是否存在至少一個RegionServer。
- 是,執行步驟17。
- 否,執行步驟21。
17.查看“Tables > System Tables”,如下圖,查看該標簽的“Table Name”列下是否存在“hbase:meta”、“hbase:namespace”和“hbase:acl”。
- 是,執行步驟18。
- 否,執行步驟19。
HBase系統表


18.如上圖,分別單擊“hbase:meta”、“hbase:namespace”和“hbase:acl”超鏈接,查看所有頁面是否能正常打開。如果頁面能正常打開,說明表都正常。
- 是,執行步驟19。
- 否,執行步驟23。
說明由于普通模式下的HBase默認未開啟ACL權限控制,只有在手動開啟ACL權限控制后才會存在“hbase:acl”表,需要檢查該表,否則不需要檢查該表。
19.查看HMaster的啟動狀態。
如下圖在“Tasks” 下有“RUNNING”的狀態表示HMaster正在啟動,“State”列有HMaster處于“RUNNING”狀態的時間。如下圖中的“COMPLETE”狀態表示HMaster啟動完成。
查看HMaster是否持續了很長一段時間處于“RUNNING”狀態。
HMaster正在啟動的狀態


HMaster啟動完成的狀態


- 是,執行步驟20。
- 否,執行步驟21。
20.查看HMaster頁面是否有hbase:meta長時間處于“Region in Transition”的狀態。
詳見下圖:Region處于Region in Transition的狀態


- 是,執行步驟21。
- 否,執行步驟22。
21.確認在不影響業務的情況下,登錄FusionInsight Manager,選擇“集群 > 待操作集群的名稱 > 服務 > HBase > 更多 > 重啟服務”,輸入密碼,單擊“確定”。
- 是,執行步驟22。
- 否,執行步驟23。
22.等待幾分鐘后檢查本告警是否恢復。
- 是,處理完畢。
- 否,執行步驟23。
檢查HMaster和依賴組件之間的網絡連接
23.在FusionInsight Manager界面,選擇“集群 > 待操作集群的名稱 > 服務 > HBase”。
24.單擊“實例”,顯示HMaster實例列表,記錄“HMaster(主)”行的“管理IP”。
25.以omm用戶通過步驟24獲取的IP地址登錄主HMaster節點。
26.執行ping命令,查看主HMaster節點和依賴組件所在主機的網絡連接是否正常。(依賴組件包括ZooKeeper、HDFS和Yarn等,獲取依賴組件所在主機的IP地址的方式和獲取主HMaster的IP地址的方式相同。)
- 是,執行步驟29。
- 否,執行步驟27。
27.聯系網絡管理員恢復網絡。
28.在告警列表中,查看“HBase服務不可用”告警是否清除。
- 是,處理完畢。
- 否,執行步驟29。
收集故障信息
29.在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
30.在“服務”中勾選待操作集群的如下節點信息。
- ZooKeeper
- HDFS
- HBase
31.單擊右上角的
設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后10分鐘,單擊“下載”。
32.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。