本章節主要介紹部分監控指(zhi)標的(de)告(gao)警(jing)策(ce)略(lve),以及配置(zhi)操作(zuo)。在實(shi)際(ji)業(ye)務(wu)中,請按照以下告(gao)警(jing)策(ce)略(lve),配置(zhi)監控指(zhi)標的(de)告(gao)警(jing)規則(ze)。
Redis實例告警策略
Redis實(shi)例配置告警的指標
| 指標名稱 | 正常范圍 | 告警策略 | 是否接近性能上限 | 告警處理建議 |
|---|---|---|---|---|
| CPU利用率 | 0~100 | 告警閾值:>70連續觸發次數:2告警級別:重要 | 否 | 結合業務分析是否由于業務上漲導致的,判斷是否需要擴容。如果單機/主備實例,無法擴展CPU能力,需要考慮切換為集群實例。該指標僅針對單機、主備、Proxy集群實例設置,Cluster集群實例級別不支持該指標,僅在數據節點支持,即需要在實例詳情的“性能監控”中選擇“數據節點”頁簽查看。 |
| CPU平均使用率 | 0~100% | 告警閾值:>70%連續觸發次數:2告警級別:重要 | 否 | 結合業務分析是否由于業務上漲導致的,判斷是否需要擴容。單機/主備實例,無法擴展CPU能力,如需擴展CPU能力,請考慮切換為集群實例。該指標僅針對單機、主備實例設置,集群實例級別不支持該指標,僅在數據節點支持,即需要在實例詳情的“性能監控”中選擇“數據節點”頁簽查看。 |
| 內存利用率 | 0~100 | 告警閾值:>70連續觸發次數:2告警級別:重要 | 否 | 建議進行擴容。 |
| 活躍的客戶端數量 | 0~10000 | 告警閾值:>8000連續觸發次數:2告警級別:重要 | 否 | 建議結合業務代碼對連接池等進行優化,避免連接數超過最大限制。單機和主備實例,最大連接數限制為10000,可以根據業務情況對閾值進行調整。僅單機和主備實例配置該指標。如果是集群實例,在數據節點和Proxy節點配置即可。 |
| 新建連接數(個/min) | 0~10000 | 告警閾值:>10000連續觸發次數:2告警級別:次要 | - | 排查是否使用短連接,或者客戶端異常連接。建議使用長連接,避免使用短連接影響性能。僅單機和主備實例配置該指標。如果是集群實例,在數據節點和Proxy節點配置即可。 |
| 網絡瞬時輸入流量 | >0 | 告警閾值:>規格基準帶寬的80%連續觸發次數:2告警級別:重要 | 是 | 結合業務分析和規格帶寬限制,判斷是否需要擴容。僅Redis3.0實例的單機/主備實例進行配置,建議按Redis3.0規格基準帶寬的80%進行配置。其他實例不配置。 |
| 網絡瞬時輸出流量 | >0 | 告警閾值:>規格基準帶寬的80%連續觸發次數:2告警級別:重要 | 是 | 結合業務分析和規格帶寬限制,判斷是否需要擴容。僅Redis3.0實例的單機/主備實例進行配置,建議按Redis3.0規格基準帶寬的80%進行配置。其他實例不配置。 |
Redis集群實例數據節點告警策略
Redis集群實例數據節(jie)點建議(yi)配置告(gao)警(jing)的指標(biao)
| 指標名稱 | 取值范圍 | 告警策略 | 是否接近性能上限 | 告警處理建議 |
|---|---|---|---|---|
| CPU利用率 | 0~100% | 告警閾值:>70%連續觸發次數:2告警級別:重要 | 否 | 結合業務分析是否由于業務上漲導致的。需要分析各個數據節點的CPU使用率分布是否均勻,如果節點普遍CPU高,需要考慮擴容,集群擴容會增加數據節點,分擔CPU壓力。如果是單個節點CPU上漲,需要業務側分析是否存在熱key,優化業務側代碼消除熱key。 |
| CPU平均使用率 | 0~100% | 告警閾值:>70%連續觸發次數:2告警級別:重要 | 否 | 結合業務分析是否由于業務上漲導致的,判斷是否需要擴容。如果單機/主備實例,無法擴展CPU能力,需要考慮切換為集群實例。該指標僅針對單機、主備、Proxy集群實例設置,Cluster集群實例級別不支持該指標,僅在數據節點支持,即需要在實例詳情的“性能監控”中選擇“數據節點”頁簽查看。 |
| 內存利用率 | 0~100% | 告警閾值:>70%連續觸發次數:2告警級別:重要 | 否 | 結合業務分析是否由于業務上漲導致的。需要分析各個數據節點的內存利用率分布是否均勻,如果節點普遍內存利用率高,需要考慮擴容。如果是單個節點內存上漲,需要業務側分析是否存在大key,優化業務側代碼消除熱大key。 |
| 活躍的客戶端數量 | 0~10000 | 告警閾值:>8000連續觸發次數:2告警級別:重要 | 否 | 分析業務,是否合理,如果結合業務分析連接數是合理的,建議調整告警閾值。 |
| 新建連接數 | >=0 | 告警閾值:>10000連續觸發次數:2告警級別:次要 | - | 新建連接數多,可能是短連接導致,建議使用長連接,避免使用短連接影響性能。 |
| 是否存在慢日志 | 0~1 | 告警閾值:>0連續觸發次數:1告警級別:重要 | - | 通過慢查詢功能分析具體的慢日志命令。 |
| 帶寬使用率 | 0~200% | 告警閾值:>90%連續觸發次數:2告警級別:重要 | 是 | 可結合網絡瞬時輸入流量和網絡瞬時輸出流量,分析業務是讀業務和還是寫業務導致的流量上漲。對于單個節點帶寬使用率上漲,需要分析是否有存在大key。其中,帶寬使用率超過100%,不一定導致限流,有沒有被流控需要看流控次數指標。帶寬使用率沒有超過100%,也有可能有限流,因為帶寬使用率是上報周期實時值,一個上報周期檢查一次。流控檢查是秒級的。有可能存在上報周期間隔期間,流量有秒級沖高,然后回落,待上報帶寬使用率指標時已恢復正常。 |
| 流控次數 | >=0 | 告警閾值:>0連續觸發次數:1告警級別:緊急 | 是 | 結合規格限制、網絡瞬時輸入流量和網絡瞬時輸出流量,查看是否擴容解決。說明Redis 4.0以上版本的實例才支持該指標,Redis 3.0實例不支持。 |
Redis集群實例Proxy節點告警策略
Proxy節點建議配(pei)置告警(jing)的指(zhi)標
| 指標名稱 | 取值范圍 | 告警策略 | 是否接近性能上限 | 告警處理建議 |
|---|---|---|---|---|
| CPU利用率 | 0~100% | 告警閾值:>70%連續觸發次數:2告警級別:緊急 | 是 | 建議考慮擴容,擴容會增加proxy節點。 |
| 內存利用率 | 0~100% | 告警閾值:>70%連續觸發次數:2告警級別:緊急 | 是 | 建議考慮擴容,擴容會增加proxy節點。 |
| 活躍的客戶端數量 | 0-30000 | 告警閾值:>20000連續觸發次數:2告警級別:重要 | 否 | 建議結合業務代碼對連接池等進行優化,避免連接數超過最大限制。 |
配置步驟
以配置CPU利用率監控指標的告警規則為例:
步(bu)驟 1 登錄分布式緩存服務(wu)管理控(kong)制(zhi)臺。
步驟 2 在管理控制臺左上角單擊
,選擇區域和項目。
步驟 3 單擊左側菜(cai)單欄(lan)的“緩存管理(li)”。進入(ru)緩存管理(li)頁(ye)面。
步(bu)驟 4 在需要查(cha)看的(de)緩存實(shi)例的(de)“操作”列,單擊“查(cha)看監控”,進(jin)入該實(shi)例的(de)監控指標頁面。
查看實例監控指標


步驟 5 在實例監控指標頁面中,找到指標名稱為“CPU利用率”的指標項,鼠標移動到指標區域,然后單擊指標右上角的
,創建告警規則。
跳轉到創建告警規(gui)則頁面。
步驟 6 在告警(jing)規則頁面,設置告警(jing)信(xin)息。
1.設置告警策略和(he)告警級別(bie)。
如下圖所示,在指標(biao)監控(kong)時,如果連續2個周期,CPU利用率(lv)超過了設置的告(gao)警(jing)閾值(zhi),則(ze)產生(sheng)告(gao)警(jing)。
設置告警內容


2.設(she)置“發送通知”開關。當開啟時(shi),設(she)置告(gao)警生效時(shi)間、產生告(gao)警時(shi)通知的對(dui)象以及觸發的條件。
3.單(dan)擊“立即創(chuang)建”,等待創(chuang)建告(gao)警規則成功(gong)。
說明
如果(guo)創建告警規(gui)(gui)則有(you)問題(ti),可查看(kan)《云(yun)監控服(fu)務 用戶指南》的(de)“使用告警功能>創建告警規(gui)(gui)則和告警通知(zhi)”章節(jie)。
如果(guo)需要修改或停用所創(chuang)建的告警(jing),請參(can)考《云監控服(fu)務 用戶指(zhi)南》的“使用告警(jing)功能>告警(jing)規(gui)則(ze)管理”章節(jie)。