通過告警規則可對資源的指標設置閾值條件,當指標數據滿足閾值條件時,會產生告警;當沒有指標數據上報時,會產生數據不足事件,以便您在第一時間發現異常并進行處理。
例如,在日常運維中,主機CPU使用率過高可能導致主機死機或重啟。這種情況下,您可通過告警規則設置閾值條件,當主機的CPU使用率超過85%時,通過告警進行預警,以便及時獲取資源運行狀態等信息并采取相應措施,避免因資源問題造成業務損失。
注意事項
告警規則不能超過1000條。當告警規則數量達到上限時,請刪除不需要的告警規則后重新創建。
自定義告警規則
步驟 1 在AOM左側導航欄中選擇“告警 > 告警規則”,在右上角單擊“添加閾值”。
步驟 2 自定義告警規則。
1、選擇資源:在“閾值名稱”文本框中輸入規則名稱,選擇資源類型,在資源樹上選擇待監控的資源,單擊“下一步”。
說明
資源樹上最多可選擇10個資源。
當選擇多個資源時,創建操作完成后,會創建多個告警規則,每個資源對應一個告警規則。規則命名方式為:您在“閾值名稱”文本框中設置的告警規則名稱加上0至9的序號(序號和資源選擇時的先后順序有關,先選擇的資源序號越小,后選擇的資源序號越大)。
選擇資源

2、定義閾值:選擇待監控的指標,設置閾值條件、連續周期、告警級別、統計方式等參數。
說明
閾值條件:閾值告警的觸發條件,由判斷條件(>=、<=、>、<)和閾值組成。例如,閾值條件設置為“>85”,表示指標的實際值大于已設置的閾值85時,生成閾值告警
連續周期:連續多少個周期滿足閾值條件后,發送閾值告警。
統計方式:指標數據按照所設置的統計方式進行聚合。
統計周期:指標數據按照所設置的統計周期進行聚合。
步驟 3 單擊“添加”,完成創建。如下圖所示,創建了多個告警規則,一個資源對應一個規則,可使用獨立的規則對某個資源進行監控。
如下圖所示,對于一個告警規則,其監控對象為某個組件,當組件的CPU內核占用超過3時,在告警界面產生閾值告警,可在左側導航欄中選擇“告警 > 告警規則”,在告警列表中查看該告警。
告警規則
