閾值告警最佳實踐
更新時間 2024-01-09 14:59:43
最近更新時間: 2024-01-09 14:59:43
分享文章
本章節主要介紹閾值告警最佳實踐
告警作為AOM應用運維管理中一項基礎功能,在日常運維中發揮著重要作用。AOM告警可以對接虛機、組件等數十種指標,通過郵件等方式通知客戶當前系統存在的問題。
支持的指標
AOM可以支持設置閾值告警的指標類型如下。
| 類型 | 指標舉例 |
|---|---|
| 組件(進程) | CPU內核總量、CPU內核占用、CPU使用率等 |
| 主機網絡 | 接收Bps、接收錯包率、發送錯包率、總Bps |
| 主機磁盤、文件系統 | 磁盤讀取速率、磁盤寫入速率、磁盤使用率 |
| 主機指標 | CPU內核總量、物理內存使用率、主機狀態、NTP偏移量 |
| 應用性能指標 | 請求平均時延、錯誤調用次數、請求吞吐量 |
使用步驟
1.登錄AOM控制臺,在左側導航欄中選擇“告警 > 告警規則”,單擊右上角的“添加閾值”。
2.選擇資源:在“閾值名稱”文本框中輸入閾值規則名稱,選擇資源類型,在資源樹上選擇待監控的資源,單擊“下一步”。
3.定義閾值:選擇待監控的指標,設置閾值條件、連續周期、告警級別、統計方式等參數。
說明
閾值條件:閾值告警的觸發條件,由判斷條件(>=、<=、>、<)和閾值組成。例如,閾值條件設置為“>85”,表示指標的實際值大于已設置的閾值85時,生成閾值
連續周期:連續多少個周期滿足閾值條件后,發送閾值告警。
統計方式:指標數據按照所設置的統計方式進行聚合。
統計周期:指標數據按照所設置的統計周期進行聚合。
4.單擊“添加”,完成創建多個單條靜態閾值規則,一個資源對應一個規則,可使用獨立的規則對某個資源進行監控。對于一個單條靜態閾值規則,若其監控對象為某個主機,當主機的CPU使用率超限時,在告警界面產生閾值告警,可在左側導航欄中選擇“告警 > 告警列表”,在告警列表中查看該告警