業務告警
更新時間 2025-02-12 10:11:43
最近更新時間: 2025-02-12 10:11:43
分享文章
本文介紹業務告警功能以及如何提交告警需求。
功能介紹
天翼云邊緣安全加速平臺支持自動化業務指標監控和告警功能,客戶可以依據實際業務監控/告警需要,設置相關的監控與告警規則。當告警規則被觸發時,天翼云監控系統會根據客戶設定的手機短信、電子郵件、企業微信、釘釘等通知方式發送告警信息,通知客戶及時介入并處理相關問題。
目前已支持的常用監控/告警指標,包括但不限于:
- 帶寬/流量:上限/下限監控、突增突降監控。
- 請求數:上限/下限監控、突增突降監控。
- 狀態碼:異常狀態碼(5xx/4xx)次數監控、異常狀態碼(5xx/4xx)比例監控。
適用場景
- 如您的業務是大文件下載或音視頻點播業務,經常涉及帶寬/流量突增突降等,可以重點考慮設置帶寬/流量相關的監控指標,并設置合適的閾值進行監控和告警。
- 如您的業務是靜態小文件,例如,政企官網、金融證券、電子商務和新聞媒體等各類網站,更關注用戶訪問量及QPS的變化,可重點考慮設置請求數/QPS相關的監控指標,并設置合適的閾值進行監控和告警。
- 如您的業務對服務可用性比較敏感,您可以設置狀態碼相關的監控指標,設置合適的閾值實時監控業務的運營狀態,確保異常時可及時告警并人工介入處理。
配置說明
該功能暫不支持客戶自助配置,如需使用,請通過提交工單給天翼云客服,由其人工操作開啟。
提交工單時,請您提供如下信息:
參數名 說明 默認值 示例 告警名稱 告警名稱用于區分不同的告警任務,當客戶收到告警信息時,將主要從告警名稱來做區分和識別不同的告警。 無。 邊緣帶寬突增告警。 監控范圍 告警規則作用的業務范圍:全量域名或部分域名。
1.全量域名:您賬號下的所有CDN加速域名。
2.部分域名:僅針對具體域名進行監控,支持目標域名(白名單)或者例外的域名(黑名單)。全量域名。 全量域名。 監控指標 具體的告警規則,當監控數據滿足告警條件時,觸發告警。
1.監控時段:“00:00 到 24:00”期間滿足“任意”或“所有”條件時觸發告警。支持多個時段多個監控指標,不同監控指標間的關系可選擇,例如:任意或所有。“任意”指多個指標只要有一個指標達到告警閾值即告警;“所有”指多個指標需要同時達到告警閾值才告警。
2.監控指標:詳情請見下表:監控指標說明。“00:00 到 24:00”期間滿足 “任意” 條件。 實例1:監控時段1:18:00到22:00滿足“任意” 條件時觸發告警。
1.域名邊緣帶寬增長率(%)>50。
2.域名5xx占比(%)≥2。
實例2:監控時段2:00:00到 24:00滿足“所有”條件時觸發告警。
1.域名邊緣帶寬增長率(%)>100。
2.域名5xx占比(%)≥5。觸發條件 為規避偶發網絡波動等因素引起的誤告(無需處理的告警),而干擾告警的有效性。監控平臺支持設置以下兩個參數:
1.持續時間:表示異常持續一段時間才觸發告警,支持300秒、1500秒兩個選項。
2.連續觸發次數:持續時間段內,連續滿足告警條件指定次數,才會觸發告警。1.持續時間:默認5分鐘。
2.連續觸發次數:默認3次。1.持續時間:10分鐘。
2.連續觸發次數:5次。告警沉默周期 告警發生后未恢復正常,間隔多久重復發送一次告警通知,單位為分鐘。某監控指標達到告警閾值時發送告警,如果監控指標在沉默周期內持續超過告警閾值,在沉默周期內不會重復發送告警通知;如果監控指標在沉默周期后仍未恢復正常,則監控再次發送告警通知。
例如:當告警沉默周期設置60分鐘時,如果告警未恢復正常,則間隔60分鐘后,監控會再次發送告警通知。5分鐘。 沉默周期:10分鐘。 告警渠道 告警觸發時的通知渠道。支持語音服務、手機短信、電子郵件、企業微信(或企業微信機器人)、釘釘機器人。 無。 手機短信。 告警聯系人組 發送告警的聯系人組。告警聯系人組是一組告警聯系人,可以包含一個或多個告警聯系人。 無。 例如:張三 手機號1。李四 手機號2。 告警內容 若無特殊需求,可忽略此項。系統會按特定指標對應的模板自動生成告警信息。 詳見下文示例。 詳見下文示例。
監控指標說明:
指標類別 指標名稱 指標說明 示例 帶寬/流量 域名邊緣帶寬(Mbps) 支持設定“>、>=、<、<=、=”某個具體的帶寬值。 >=1000 域名流量(一段時間內)(GB) 支持設定“>、>=、<、<=、=”某個具體的流量值。 >=500 域名邊緣帶寬增長率-相比10min前(%) 支持設定“>、>=、<、<=、=”某個具體的比例。 >=20 域名邊緣帶寬增長率(%) 支持設定“>、>=、<、<=、=”某個具體的比例。 >=50 域名邊緣帶寬下降率-相比10min前(%) 支持設定“>、>=、<、<=、=”某個具體的比例。 >=20 域名邊緣帶寬下降率(%) 支持設定“>、>=、<、<=、=”某個具體的比例。 >=20 請求數 域名請求數量(次) 支持設定“>、>=、<、<=、=”某個具體的數量。 >=1000000 域名請求增長率-相比10min前(%) 支持設定“>、>=、<、<=、=”某個具體的比例。 >=20 域名qps增長率(%) 支持設定“>、>=、<、<=、=”某個具體的比例。 >=30 域名請求下降率-相比10min前(%) 支持設定“>、>=、<、<=、=”某個具體的比例。 >=20 域名全網qps下降率(%) 支持設定“>、>=、<、<=、=”某個具體的比例。 >=30 狀態碼 域名5xx占比(%) 支持設定“>、>=、<、<=、=”某個具體的比例。 >=1 域名5xx數量(次) 支持設定“>、>=、<、<=、=”某個具體的數量。 >=1000 域名4xx占比(%) 支持設定“>、>=、<、<=、=”某個具體的比例。 >=1 域名4xx數量(次) 支持設定“>、>=、<、<=、=”某個具體的數量。 >=1000 域名邊緣4xx占比增長(%) 支持設定“>、>=、<、<=、=”某個具體的比例。 >=20
注意事項
- 當同時配置多個告警指標時,平臺支持“任意”或“所有”條件滿足時告警,提交工單時,請明確告知。
- 如您對自有業務的特點不甚了解,您可以先按經驗提交一個閾值方案,業務運營同事會幫您做一些基礎的判斷和建議,先試運行。之后,可結合線上實際運營情況,后期再提工單優化,直至找到適合的監控指標及閾值。
告警示例
告警需求提交示例:
- 告警名稱:帶寬突增與可用性告警。
- 監控范圍:test.daliqc.cn(單個域名)。
- 監控指標:18:00到22:00滿足“任意”條件時觸發告警。
- 條件1:域名邊緣帶寬增長率(%)>50。
- 條件2:域名5xx占比(%)≥2。
- 觸發條件:
- 持續時間:10分鐘。
- 連續觸發次數:5次。
- 告警沉默周期:30分鐘。
- 告警渠道:企業微信機器人。
- 告警聯系人: 王五 186XXXXXXXX。
- 告警內容:系統默認。
企業微信告警信息示例:
[alert]-test.daliqc.cn:-帶寬突增與可用性告警:
- 王五。
- 客戶郵箱:XXXX。
- domain=[test.daliqc.cn]。
- 告警通知ID=XXXXXXXXXXXXX-XXXXXXXX。
- 發生了[帶寬突增與可用性告警]告警-客戶級。
- 當前值為[域名5xx占比(%)=3]。
- 觸發條件[域名5xx占比(%) 超過 2]。
- 故障持續XXX分鐘。
- 開始時間:2023-11-20 06:25:01。
- 最近一次告警時間為:2023-11-20 11:30:04。
- 期間告警X次恢復X次。