ZooKeeper健康檢查指標項說明
更新時間 2023-06-09 10:50:57
最近更新時間: 2023-06-09 10:50:57
分享文章
本章節主要介紹翼MapReduce服務ZooKeeper健康檢查指標項說明。
ZooKeeper服務處理請求平均延時
指標項名稱 :ZooKeeper服務處理請求平均延時
指標項含義 :檢查ZooKeeper服務處理請求的平均延時,如果大于300毫秒,則認為不健康。
恢復指導: 如果該指標項異常,則需要檢查集群的網絡速度是否正常、內存或CPU使用率是否過高。
ZooKeeper連接數使用率
指標項名稱 :ZooKeeper連接數使用率
指標項含義 :檢查ZooKeeper內存使用率是否超過80%。如果超過閾值,則認為不健康。
恢復指導 :如果該指標項異常,建議增加ZooKeeper服務可以使用的內存。可以通過ZooKeeper服務配置中的“GC_OPTS”配置項參數-Xmx來修改,修改完成需重啟ZooKeeper服務。
服務健康狀態
指標項名稱: 服務狀態
指標項含義 :檢查ZooKeeper服務狀態是否正常。如果狀態不正常,則認為不健康。
恢復指導: 如果該指標項異常,建議檢查KrbServer、LdapServer兩個服務的健康狀態是否為故障并進行處理。然后登錄ZooKeeper客戶端,確認ZooKeeper是否無法寫入數據,根據錯誤提示排查ZooKeeper寫數據失敗的原因。最后參考告警ALM-13000進行處理。
檢查告警
指標項名稱: 告警信息
指標項含義 :檢查服務是否存在未清除的告警。如果存在,則認為不健康。
恢復指導: 如果該指標項異常,建議參見告警進行處理。