配置必須的監控告警
更新時間 2025-05-09 23:30:27
最近更新時間: 2025-05-09 23:30:27
分享文章
介紹Kafka配置必須的監控告警
告警指標
在實際業務中,建議按照以下告警策略,配置監控指標的告警規則。
| 指標ID | 指標名稱 | 告警策略 | 指標說明 | 告警處理建議 |
|---|---|---|---|---|
| broker_bytes_in | 節點流量告警 | 告警閾值:原始值>50MB/s 持續時間:可自定義 告警級別:重要 |
該指標為從Kafka節點虛擬機層面采集的數據寫入流量。 | 出現該告警時,先檢查該監控是否長期處于接近或超過告警閾值狀態,如果是,需要修改實例代理個數,即擴節點。具體操作請參考擴容。 |
| broker_message_in | 節點tps告警 | 告警閾值:原始值>10000 持續時間:可自定義 告警級別:重要 |
該指標為從Kafka節點虛擬機層面采集的tps。 | 出現該告警時,先檢查該監控是否長期處于接近或超過告警閾值狀態,如果是,需要修改實例代理個數,即擴節點。具體操作請參考擴容。 |
| topic_bytes_in | 主題流量告警 | 告警閾值:原始值>50MB/s 持續時間:可自定義 告警級別:重要 |
該指標為從topic機層面采集的數據寫入流量。 | 出現該告警時,先檢查該監控是否長期處于接近或超過告警閾值狀態,如果是,需要修改實例代理個數,即擴節點。具體操作請參考擴容。 |
| topic_message_in | 主題tps告警 | 告警閾值:原始值>10000 持續時間:可自定義 告警級別:重要 |
該指標為從topic機層面采集的tps。 | 出現該告警時,先檢查該監控是否長期處于接近或超過告警閾值狀態,如果是,需要修改實例代理個數,即擴節點。具體操作請參考擴容。 |
| group_total_lag | 消費組堆積數告警 | 告警閾值:原始值>10000 持續時間:可自定義 告警級別:重要 |
該指標為統計的消費組未消費的消息堆積量 | 出現該告警時,請先檢測消費者客戶端消費速度是否過慢,檢查消費者客戶端是否有擴充的可能(消費者客戶端數量和對應tpic的分區數相等) |
操作步驟
1、進入kafka控制臺,選擇一個實例,點擊“管理”進入實例管理頁面,再點擊“告警管理”進入告警規則列表。
2、點擊“創建告警規則”進入創建頁面,根據頁面的提示,填寫告警名稱、告警內容和告警條件,選擇告警分組、告警指標、篩選條件、持續時間、告警等級、通知策略、通知頻率,確認告警規則內容正確后,點擊“保存”。
3、根據告警規則,模擬告警發出的場景,例如實例連接數>10時,發出告警。