告警管理簡介
更新時間 2023-08-16 16:25:06
最近更新時間: 2023-08-16 16:25:06
分享文章
本章節主要介紹數據倉庫服務的告警管理。
概述
告警管理包含查看告警規則、告警規則配置與告警信息訂閱功能。其中,告警規則可以提供過去一周的告警信息統計與告警信息明細,方便用戶自行查看租戶下的告警。該特性除了以默認值的形式提供一套DWS告警最佳實踐外,還允許用戶根據自己的業務特點,個性化修改告警閾值。告警管理通過消息通知服務(Simple Message Notification,簡稱SMN)發送DWS 告警通知,用戶可訂閱告警啟用通知。

說明該特性僅支持8.1.1.200及以上版本的數據庫內核。
進入告警管理頁面
1.登錄DWS 管理控制臺。
2.在左側導航欄,單擊“告警管理”,切換至“告警”頁簽。
3.進入數據倉庫告警展示頁面。該頁面分為三個區域:
- 存量告警統計
最近7天的存量告警統計值(按告警級別分類),以柱狀圖的形式展示。用戶可通過存量告警統計圖,對過去一周告警發生的數量和分布有清晰的了解。
- 當日告警
當天的存量告警統計值(按級別分類),以列表的形式展示。重點向用戶強調當天未處理的告警數量,幫助用戶快速掌握目前告警的數量和分布。
- 告警詳情
最近7天的所有告警(包括已處理和未處理)的明細信息,以表格的形式展示。可查看近7天內所有告警的告警名稱、告警級別、集群名稱、定位信息、詳細信息、產生日期、狀態等信息,幫助用戶快速發現和定位問題。



說明告警展示頁面的數據源來自EventService微服務,該微服務最多可以提供30天的告警緩存數據。
告警類別和告警
DMS告警源觸發閾值告警
| 告警類別 | 告警名稱 | 告警級別 | 告警描述 |
|---|---|---|---|
| 默認 | 節點CPU使用率超閾值 | 緊急 | DMS告警模塊在指定周期內,檢測到集群任意節點的CPU使用率(系統+用戶)超過當前設定閾值,且抑制條件不滿足時,DMS告警模塊將觸發該告警;檢測到集群任意節點的CPU使用率(系統+用戶)低于當前設定閾值,且抑制條件不滿足時,DMS告警模塊將消除該告警。 |
| 默認 | 節點系統CPU使用率超閾值 | 緊急 | DMS告警模塊在指定周期內,檢測到集群任意節點的系統CPU使用率超過當前設定閾值,且抑制條件不滿足時,DMS告警模塊將觸發該告警;檢測到集群任意節點的系統CPU使用率低于當前設定閾值,且抑制條件不滿足時,DMS告警模塊將消除該告警。 |
| 默認 | 節點系統磁盤使用率超閾值 | >85%緊急,>80%重要 | DMS告警模塊在指定周期內,檢測到集群任意節點的系統盤(/)使用率超過當前設定閾值,且抑制條件不滿足時,DMS告警模塊將觸發該告警;檢測到集群任意節點的系統盤(/)使用率低于當前設定閾值,且抑制條件不滿足時,DMS告警模塊將消除該告警。 |
| 默認 | 節點日志盤使用率超閾值 | >85%緊急,>80%重要 | DMS告警模塊在指定周期內,檢測到集群任意節點的日志盤(/var/chroot/DWS/manager)使用率超過當前設定閾值,且抑制條件不滿足時,DMS告警模塊將觸發該告警;檢測到集群任意節點的日志盤(/var/chroot/DWS/manager)使用率低于當前設定閾值,且抑制條件不滿足時,DMS告警模塊將消除該告警。 |
| 默認 | 節點數據盤使用率超閾值 | >85%緊急,>80%重要 | DMS告警模塊在指定周期內,檢測到集群任意節點的數據盤(/var/chroot/DWS/data[n])使用率超過當前設定閾值,且抑制條件不滿足時,DMS告警模塊將觸發該告警;檢測到集群任意節點的數據盤(/var/chroot/DWS/data[n])使用率低于當前設定閾值,且抑制條件不滿足時,DMS告警模塊將消除該告警。 |
| 默認 | 節點系統盤I/O利用率超閾值 | 緊急 | DMS告警模塊在指定周期內,檢測到集群任意節點的系統盤(/)I/O利用率(util)超過當前設定閾值,且抑制條件不滿足時,DMS告警模塊將觸發該告警;檢測到集群任意節點的系統盤(/)I/O利用率(util)低于當前設定閾值,且抑制條件不滿足時,DMS告警模塊將消除該告警。 |
| 默認 | 節點日志盤I/O利用率超閾值 | 緊急 | DMS告警模塊在指定周期內,檢測到集群任意節點的日志盤(/var/chroot/DWS/manager)I/O利用率(util)超過當前設定閾值,且抑制條件不滿足時,DMS告警模塊將觸發該告警;檢測到集群任意節點的日志盤(/var/chroot/DWS/manager)I/O利用率(util)低于當前設定閾值,且抑制條件不滿足時,DMS告警模塊將消除該告警。 |
| 默認 | 節點數據盤I/O利用率超閾值 | 緊急 | DMS告警模塊在指定周期內,檢測到集群任意節點的數據盤(/var/chroot/DWS/data[n])I/O利用率(util)超過當前設定閾值,且抑制條件不滿足時,DMS告警模塊將觸發該告警;檢測到集群任意節點的數據盤(/var/chroot/DWS/data[n])I/O利用率(util)低于當前設定閾值,且抑制條件不滿足時,DMS告警模塊將消除該告警。 |
| 默認 | 節點系統盤時延超閾值 | 重要 | DMS告警模塊在指定周期內,檢測到集群任意節點的系統盤(/)I/O延時(await)超過當前設定閾值,且抑制條件不滿足時,DMS告警模塊將觸發該告警;檢測到集群任意節點的系統盤(/)I/O延時(await)低于當前設定閾值,且抑制條件不滿足時,DMS告警模塊將消除該告警。 |
| 默認 | 節點日志盤時延超閾值 | 重要 | DMS告警模塊在指定周期內,檢測到集群任意節點的日志盤(/var/chroot/DWS/manager)I/O延時(await)超過當前設定閾值,且抑制條件不滿足時,DMS告警模塊將觸發該告警;檢測到集群任意節點的日志盤(/var/chroot/DWS/manager)I/O延時(await)低于當前設定閾值,且抑制條件不滿足時,DMS告警模塊將消除該告警。 |
| 默認 | 節點數據盤時延超閾值 | 重要 | DMS告警模塊在指定周期內,檢測到集群任意節點的數據盤(/var/chroot/DWS/data[n])I/O延時(await)超過當前設定閾值,且抑制條件不滿足時,DMS告警模塊將觸發該告警;檢測到集群任意節點的數據盤(/var/chroot/DWS/data[n])I/O延時(await)低于當前設定閾值,且抑制條件不滿足時,DMS告警模塊將消除該告警。 |
| 默認 | 節點系統盤inode使用率超閾值 | >95%緊急,>90%重要 | DMS告警模塊在指定周期內,檢測到集群任意節點的系統盤(/)inode使用率超過當前設定閾值,且抑制條件不滿足時,DMS告警模塊將觸發該告警;檢測到集群任意節點的系統盤(/)inode使用率低于當前設定閾值,且抑制條件不滿足時,DMS告警模塊將消除該告警。 |
| 默認 | 節點日志盤inode使用率超閾值 | >95%緊急,>90%重要 | DMS告警模塊在指定周期內,檢測到集群任意節點的日志盤(/var/chroot/DWS/manager)inode使用率超過當前設定閾值,且抑制條件不滿足時,DMS告警模塊將觸發該告警;檢測到集群任意節點的日志盤(/var/chroot/DWS/manager)inode使用率低于當前設定閾值,且抑制條件不滿足時,DMS告警模塊將消除該告警。 |
| 默認 | 節點數據盤inode使用率超閾值 | >95%緊急,>90%重要 | DMS告警模塊在指定周期內,檢測到集群任意節點的數據盤(/var/chroot/DWS/data[n])inode使用率超過當前設定閾值,且抑制條件不滿足時,DMS告警模塊將觸發該告警;檢測到集群任意節點的數據盤(/var/chroot/DWS/data[n])inode使用率低于當前設定閾值,且抑制條件不滿足時,DMS告警模塊將消除該告警。 |
| 默認 | 查詢語句觸發下盤量超閾值 | 緊急 | DMS告警模塊在指定周期內,檢測到集群中執行的SQL語句觸發結果集下盤,下盤量超過當前設定閾值,且抑制條件不滿足時,DMS告警模塊將觸發該告警;該告警為針對每個SQL語句下盤量的告警,因此無法自動消除,需要用戶在處理完該告警所涉及的SQL語句后手動消除該告警項。 |
| 默認 | 查詢語句堆積數量超閾值 | 緊急 | DMS告警模塊在指定周期內,檢測到集群中處于等待狀態的SQL語句數量超過當前設定閾值時,DMS告警模塊將觸發該告警;檢測到集群中處于等待狀態的SQL語句數量低于當前設定閾值時,DMS告警模塊將消除該告警。 |
| 默認 | 集群默認資源池隊列阻塞 | 緊急 | DMS告警模塊在指定周期內,檢測到集群的默認資源池隊列發生阻塞,且抑制條件不能滿足時,DMS告警模塊將觸發該告警;檢測到集群的默認資源池隊列不再發生阻塞,DMS告警模塊將消除該告警。 |
| 默認 | 集群的sql探針使用率超閾值 | 緊急 | DMS告警模塊在指定周期內,檢測到任意集群的某個主機上出現sql探針耗時超過閾值,且抑制條件不能滿足時,DMS告警模塊將觸發該告警;檢測到任意集群的某個主機上不再出現sql探針耗時超過閾值時,DMS告警模塊將消除該告警。 說明 該告警僅8.1.1.300及以上版本支持,歷史版本需要聯系技術支持人員升級dms-agent為8.1.3版本后支持。 |
| 自定義 | 用戶自定義閾值告警名稱 | 用戶自定義告警級別 | 用戶自定義閾值告警描述。 |