本章節主要介紹部分監控指標的告警策略,以及配置操作。在實際業務中,建議按照以下告警策略,配置監控指標的告警規則。
表1 RabbitMQ實例配置告警的指標
指標名稱 告警策略 指標說明 解決方案 內存高水位狀態 告警閾值:原始值>=1
連續觸發次數:1
告警級別:致命
告警閾值為1表示觸發內存高水位,會阻塞消息生產
加快消費
采用生產者確認的發送模式,并監控生產端消息生產速度和時長,當消息生產時長有明顯增加時進行流控措施
磁盤高水位狀態 告警閾值:原始值>=1
連續觸發次數:1
告警級別:致命
告警閾值為1表示觸發磁盤高水位,會阻塞消息生產
減少惰性隊列的消息堆積
減少持久化隊列的消息堆積
刪除隊列
內存使用率 告警閾值:原始值>業務預期使用率(推薦30%)
連續觸發次數:連續3~5個周期
告警級別:重要
該指標需要分別為每個節點設置內存使用率告警,避免觸發內存高水位阻塞生產
加快消費
采用生產者確認的發送模式,并監控生產端消息生產速度和時長,當消息生產時長有明顯增加時進行流控措施
CPU使用率 告警閾值:原始值>業務預期使用率(推薦70%)
連續觸發次數:連續3~5個周期
告警級別:重要
該指標需要分別為每個節點設置CPU使用率告警,CPU使用率過高可能會影響生產速度
減少鏡像隊列個數
對于集群實例,建議擴容節點個數,然后進行節點間重平衡
可消費消息數 告警閾值:原始值>業務預期可消費消息數
連續觸發次數:1
告警級別:重要
可消費消息數過多表示消息堆積 請參考消息堆積的解決辦法 未確認消息數 告警閾值:原始值>業務預期未確認消息數
連續觸發次數:1
告警級別:重要
未確認消息數過多可能會導致消息堆積
檢查消費者是否異常
檢查消費者邏輯是否消耗時間過長
連接數 告警閾值:原始值>業務預期連接數
連續觸發次數:1
告警級別:重要
連接數突增可能是流量變大的預警 需檢查業務是否正常,可參考其他告警 通道數 告警閾值:原始值>業務預期通道數
連續觸發次數:1
告警級別:重要
通道數突增可能是流量變大的預警 需檢查業務是否正常,可參考其他告警 Erlang進程數 告警閾值:原始值>業務預期進程數
連續觸發次數:1
告警級別:重要
進程數突增可能是流量變大的預警 需檢查業務是否正常,可參考其他告警
說明
告警閾值請根據業務預期數設置。例如,業務預期使用率35%,則告警閾值設置35%。
連續觸發次數和告警級別可根據業務邏輯自行調整。
操作步驟
步驟 1 登錄管理控制臺。
步驟 2 在管理控制臺右上角單擊
,選擇區域。
說明此處請選擇RabbitMQ實例所在的區域。
步驟 3 在管理控制臺左上角單擊
,選擇“企業中間件”->“分布式消息服務”->“RabbitMQ專享版”,進入分布式消息服務RabbitMQ專享版頁面。
步驟 4 通過以下任意一種方法,查看監控數據。
- 在RabbitMQ實例名稱后,單擊“查看監控數據”。跳轉到云監控頁面,查看實例、節點和隊列的監控數據,數據更新周期為1分鐘。
- 單擊RabbitMQ實例名稱,進入實例詳情頁。在左側導航欄單擊“監控”,進入監控頁面,查看實例、節點和隊列的監控數據,數據更新周期為1分鐘。
步驟 5 在實例監控指標頁面中,找到需要創建告警的指標項,鼠標移動到指標區域,然后單擊指標右上角的
,進入“創建告警規則”頁面。
步驟 6 在告警規則頁面,設置告警信息。
創建告警規則操作,請查看《云監控服務用戶指南》的創建告警規則和告警通知。
- 設置告警名稱和告警的描述。
- 設置告警策略和告警級別。
例如,在進行指標監控時,如果連續3個周期,連接數原始值超過設置的值,則產生告警,如果未及時處理,則每一天發送一次告警通知。
- 設置“發送通知”開關。當開啟時,設置告警生效時間、產生告警時通知的對象以及觸發的條件。
- 單擊“立即創建”,等待創建告警規則成功。