告警解釋
系統每120秒周期性檢測HBase服務的znode使用情況,當檢測到HBase服務的znode容量使用率超出告警的閾值(默認75%)時產生該告警。
當znode的容量使用率小于告警的閾值時,告警恢復。
說明若集群啟用了多實例功能且安裝了多個HBase服務,請根據“定位信息”的“服務名”值來確定具體產生告警的HBase服務。例如“定位信息”中顯示服務名=HBase-1,處理步驟中的操作對象也應由HBase調整為HBase-1。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 19017 | 重要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
| Threshold | 產生告警的閾值。 |
對系統的影響
產生該告警表示HBase服務的znode的容量使用率已經超過規定的閾值,如果不及時處理,可能會導致問題級別升級為緊急,影響數據寫入。
可能原因
- HBase配置了容災并且容災存在數據同步失敗或者同步速度慢。
- HBase集群存在大量的WAL文件在進行split。
處理步驟
檢查znode容量配置和使用量
1.在FusionInsight Manager首頁,選擇“運維 > 告警 > 告警”,選中“告警ID”為“19017”的告警,查看“附加信息”中的閾值。
2.以root用戶登錄HBase客戶端。執行以下命令進入客戶端安裝目錄:
cd 客戶端安裝目錄
然后執行以下命令設置環境變量:
source bigdata_env
如果集群采用安全版本,要執行以下命令進行安全認證:
kinit hbase
按提示輸入密碼(向管理員獲取密碼)。
3.執行hbase zkcli命令進入ZooKeeper客戶端,然后執行命令listquota /hbase查看對應HBase服務的znode容量配額,其中命令中的znode根目錄為對應HBase服務的參數“zookeeper.znode.parent”所指定。下圖標注所示即為當前HBase服務根znode的容量配置。


4.執行命令getusage /hbase/splitWAL查看該znode的容量使用情況,查看返回結果的“ Data size ”跟znode容量配額的比值是否接近告警的閾值。
- 是,執行步驟5。
- 否,執行步驟6。
5.在FusionInsight Manager首頁,查看是否存在“告警ID”為“12007”、“19000”或者“19013”且“定位信息”中的“服務名”為當前HBase服務的告警。
- 是,單擊對應告警右側的“查看幫助”并按照幫助文檔進行處理,執行步驟8。
- 否,執行步驟7。
6.執行命令getusage /hbase/replication查看該znode的容量使用情況,查看返回結果的“ Data size ”跟znode容量配額的比值是否接近告警的閾值。
- 是,執行步驟7。
- 否,執行步驟9。
7.在FusionInsight Manager首頁,選擇“運維 > 告警 > 告警”,查看是否存在“告警ID”為“19006”并且“定位信息”中的“服務名”為當前HBase服務的告警。
- 是,單擊對應告警右側的“查看幫助”并按照幫助文檔進行處理,執行步驟8。
- 否,執行步驟9。
8.觀察界面告警是否清除。
- 是,處理完畢。
- 否,執行步驟9。
收集故障信息
9.在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
10.在“服務”中勾選待操作集群的“HBase”。
11.單擊右上角的
設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后10分鐘,單擊“下載”。
12.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。