Storm健康檢查指標項說明
更新時間 2023-06-09 10:52:30
最近更新時間: 2023-06-09 10:52:30
分享文章
本章節主要介紹翼MapReduce服務Storm健康檢查指標項說明。
工作節點數
指標項名稱 :Supervisor數
指標項含義 :檢查集群中可用的Supervisor數,若集群中可用的Supervisor數小于1,則認為不健康。
恢復指導 :如果該指標項異常,進入Streaming服務實例頁面,單擊不可用Supervisor實例的“主機名”,在“概要信息”中查看主機的健康狀態,若為“良好”,則參見“ALM-12007 進程故障”告警進行處理;若不為“良好”,則參見“ALM-12006 節點故障”告警進行處理。
空閑Slot數
指標項名稱 :空閑Slot數
指標項含義 :檢查集群中空閑的Slot數,若集群中空閑slot數目小于1,則認為不健康。
恢復指導 :如果該指標項異常,進入Storm服務實例頁面,查看Supervisor實例的“健康狀態”,若均為“良好”,則需要擴容集群Core節點;若不為良好,則參見“ALM-12007 進程故障”告警進行處理。
服務健康狀態
指標項名稱 :服務狀態
指標項含義 :檢查Storm服務狀態是否正常。如果狀態不正常,則認為不健康。
恢復指導 :如果該指標項異常,建議參見“ALM-26051 Storm服務不可用”告警進行處理。
檢查告警
指標項名稱 :告警信息
指標項含義 :檢查服務是否存在未清除的告警。如果存在,則認為不健康。
恢復指導 :如果該指標項異常,建議參見告警進行處理。