本章節(jie)主(zhu)要介紹(shao)部分監控(kong)(kong)指(zhi)標(biao)的(de)告警(jing)策略,以(yi)及配(pei)置(zhi)操作。在(zai)實際業(ye)務中,建議按照以(yi)下(xia)告警(jing)策略,配(pei)置(zhi)監控(kong)(kong)指(zhi)標(biao)的(de)告警(jing)規則。
表 Kafka實例配(pei)置告(gao)警的指標
| 指標ID | 指標名稱 | 告警策略 | 指標說明 | 告警處理建議 |
|---|---|---|---|---|
| broker_disk_usage | 磁盤容量使用率 | 告警閾值:原始值>80%連續觸發次數:1告警級別:緊急 | 該指標為從Kafka節點虛擬機層面采集的磁盤容量使用率。 | 出現該告警時,需要修改實例存儲空間。具體操作,請參考變更實例規格。 |
| broker_cpu_core_load | CPU核均負載 | 告警閾值:原始值>2連續觸發次數:3告警級別:重要 | 該指標為從Kafka節點虛擬機層面采集的CPU每個核的平均負載。 | 出現該告警時,先檢查該監控是否長期處于接近或超過告警閾值狀態,如果是,需要修改實例基準帶寬/代理個數,即擴節點。具體操作,請參考。 |
| broker_memory_usage | 內存使用率 | 告警閾值:原始值>90%連續觸發次數:3告警級別:緊急 | 該指標為Kafka節點虛擬機層面采集的內存使用率。 | 出現該告警時,需要修改實例基準帶寬/代理個數,即擴節點。具體操作,請參考。 |
| current_partitions | 分區數 | 告警閾值:原始值>分區數上限的90%,不同實例規格分區數上限不同,具體參考產品規格。連續觸發次數:1告警級別:重要 | 該指標用于統計Kafka實例中已經使用的分區數量。 | 出現該告警時,如果業務后續還需要新增Topic,則需要修改實例基準帶寬/代理個數或將業務拆分至多個實例。修改實例基準帶寬/代理個數的具體操作,請參考。 |
| broker_cpu_usage | CPU使用率 | 告警閾值:原始值>90%連續觸發次數:3告警級別:重要 | 統計Kafka節點虛擬機的CPU使用率。 | 出現該告警時,先檢查該監控是否長期處于接近或超過告警閾值狀態,如果是,需要修改實例基準帶寬/代理個數,即擴節點。具體操作,請參考。 |
| group_msgs | 堆積消息數 | 告警閾值:原始值>積壓上限的90%,積壓上限由您根據業務實際情況設定連續觸發次數:1告警級別:重要 | 該指標用于統計Kafka實例中所有消費組中總堆積消息數。 | 出現該告警時,首先排查是否有閑置消費組,如果有,則刪除。其次,可以考慮加快消費速度,例如增加組內消費者數量等。 |
| topic_messages_remained | 隊列可消費消息數 | 告警閾值:原始值>積壓上限的90%,積壓上限由您根據業務實際情況設定連續觸發次數:1告警級別:重要 | 該指標用于統計消費組指定隊列可以消費的消息個數。 | 出現該告警時,首先排查消費者代碼邏輯是否有誤,例如消費者出現了異常不再消費等。其次,可以考慮加快消息的消費,例如增加隊列消費者,并確保分區數大于或等于消費者數。 |
操作步驟
步驟 1 登錄(lu)管理控制(zhi)臺。
步驟 2 在管理控制臺右上角單擊
,選擇區域。
說明請選擇Kafka實例所在的區域(yu)。
步驟 3 在管理控制臺左上角單擊
,選擇(ze)“企(qi)業中間(jian)件”-“分(fen)布式消息(xi)服(fu)務”-“Kafka專享版”,進入分(fen)布式消息(xi)服(fu)務Kafka專享版頁面。
步驟 4 在Kafka實例名稱后,單擊
。
進入云監控該(gai)實例的監控指(zhi)標頁(ye)面。
步驟 5 在實例監控指標頁面中,找到需要創建告警的指標項,鼠標移動到指標區域,然后單擊指標右上角的
,創(chuang)建(jian)告(gao)(gao)警(jing)規則,跳轉到創(chuang)建(jian)告(gao)(gao)警(jing)規則頁面。
步(bu)驟 6 在告(gao)警規(gui)則頁面,設置告(gao)警信息。
創建告警規則操作,請查看《云監控服務用戶指南》的“創建告警規則和告警通知”章節。
- 設置告警名稱和告警的描述。
- 設置告警策略和告警級別。
如(ru)下圖所示,在進行指標監控(kong)時(shi),如(ru)果連續3個周期,磁(ci)盤容量使(shi)用率(lv)原(yuan)始值超過(guo)85%,則產(chan)生告警(jing),如(ru)果未及(ji)時(shi)處(chu)理,則產(chan)生告警(jing)通知。
圖設置告警(jing)(jing)策略(lve)和告警(jing)(jing)級別


- 設置“發送通知”開關。當開啟時,設置告警生效時間、產生告警時通知的對象以及觸發的條件。
- 單擊“立即創建”,等待創建告警規則成功。