ALM-12045 網絡讀包丟包率超過閾值
更新時間 2023-08-22 15:36:39
最近更新時間: 2023-08-22 15:36:39
分享文章
本章節主要介紹ALM-12045 網絡讀包丟包率超過閾值。
告警解釋
系統每30秒周期性檢測網絡讀包丟包率,并把實際丟包率和閾值(系統默認閾值0.5%)進行比較,當檢測到網絡讀包丟包率連續多次(默認值為5)超過閾值時產生該告警。
用戶可通過“運維 > 告警 > 閾值設置 > 待操作集群的名稱 > 主機 > 網絡讀信息 > 讀包丟包率”修改閾值。
平滑次數為1,網絡讀包丟包率小于或等于閾值時,告警恢復;平滑次數大于1,網絡讀包丟包率小于或等于閾值的90%時,告警恢復。
該告警檢測默認關閉。若需要開啟,請根據“檢查系統環境”步驟,確認該系統是否可以開啟該告警發送。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 12045 | 重要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群或系統名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
| 網口名 | 產生告警的網口名。 |
| Trigger Condition | 系統當前指標取值滿足自定義的告警設置條件。 |
對系統的影響
業務性能下降或者個別業務出現超時問題。
風險提示:在SUSE內核版本3.0以上或Red Hat 7.2版本,由于系統內核修改了網絡讀包丟包數的計數機制,在該系統下,即使網絡正常運行,也可能會導致該告警出現,對業務無影響,建議優先按照“檢查系統環境”進行排查。
可能原因
- 操作系統問題。
- 網卡配置了主備bond模式。
- 告警閾值配置不合理。
- 網絡環境質量差。
處理步驟
查看網絡丟包率
- 打開FusionInsight Manager頁面,選擇“運維 > 告警 > 告警”,單擊此告警所在行的

,查看該告警的主機名稱和網卡名稱。 - 以omm用戶登錄該告警所在節點,執行/sbin/ifconfig 網卡名稱命令檢查網絡中是否存在丟包。



- 告警節點IP地址:根據告警定位信息中的“主機名”字段值,在FusionInsight Manager的“主機”查詢對應的IP地址,管理平面和業務平面IP都需要檢查。
- 丟包率=(dropped個數/RX packets總個數)*100%,如果丟包率大于該指標所設置的系統閾值(系統默認閾值0.5%),則認為網絡讀包存在丟包現象。
- 是,執行步驟11。
- 否,執行步驟3。
檢查系統環境
- 以omm用戶登錄主OMS節點或者告警所在節點。
- 執行cat /etc/*-release命令,確認操作系統的類型。
- Red Hat,執行步驟5。
# cat /etc/*-release
Red Hat Enterprise Linux Server release 7.2 (Santiago)
- SUSE,執行步驟6。
# cat /etc/*-release
SUSE Linux Enterprise Server 11 (x86_64)
VERSION = 11
PATCHLEVEL = 3
- 其他,執行步驟11。
- 執行cat /etc/redhat-release命令,查詢操作系統版本是否為Red Hat 7.2(x86)或者Red Hat 7.4(TaiShan)。
# cat /etc/redhat-release
Red Hat Enterprise Linux Server release 7.2 (Santiago)
- 是,不能開啟告警發送,執行步驟7。
- 否,執行步驟11。
- 執行cat /proc/version命令,查詢SUSE內核版本是否為3.0及以上。
# cat /proc/version
Linux version 3.0.101-63-default (geeko@buildhost) (gcc version 4.3.4 [gcc-4_3-branch revision 152973] (SUSE Linux) ) #1 SMP Tue Jun 23 16:02:31 UTC 2015 (4b89d0c)
- 是,不能開啟告警發送,執行步驟7。
- 否,執行步驟11。
- 登錄FusionInsight Manager,進入“運維 > 告警 > 閾值設置”頁面。
- 在“閾值設置”頁面左側樹形結構中選擇“待操作集群名稱 >主機 > 網絡讀信息 > 讀包丟包率”,查看發送告警開關指示是否打開。
- 是,說明開啟了告警發送,執行步驟9。
- 否,已經關閉告警發送,執行步驟10。
- 關閉該告警“開關”開關,屏蔽對“網絡讀包丟包率超過閾值”的檢測,操作后的結果如下圖所示。


- 在FusionInsight Manager的“告警”界面,搜索“12045”告警,將未自動清除的該告警全部手動清除,處理完畢。


說明“網絡讀包丟包率超過閾值”的告警ID是12045。
檢查網卡是否配置了主備bond模式
- 以omm用戶登錄告警所在節點,執行ls -l /proc/net/bonding命令,查看該節點是否存在“/proc/net/bonding”目錄。
- 是,如下所示,則該節點配置了bond模式,執行步驟12。
ls -l /proc/net/bonding/
total 0
-r--r--r-- 1 root root 0 Oct 11 17:35 bond0
- 否,如下所示,則該節點未配置bond模式,執行步驟14。
ls -l /proc/net/bonding/
ls: cannot access /proc/net/bonding/: No such file or directory
- 執行 cat /proc/net/bonding/ bond0命令,查看配置文件中Bonding Mode參數的值是否為 fault-tolerance 。
說明bond0為bond配置文件名稱,請以步驟11查詢出的文件名稱為準。
# cat /proc/net/bonding/bond0
Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2011)
Bonding Mode : fault-tolerance (active-backup)
Primary Slave: eth1 (primary_reselect always)
Currently Active Slave : eth1
MII Status: up
MII Polling Interval (ms): 100
Up Delay (ms): 0
Down Delay (ms): 0
Slave Interface : eth0
MII Status: up
Speed: 1000 Mbps
Duplex: full
Link Failure Count: 1
Slave queue ID: 0
Slave Interface : eth1
MII Status: up
Speed: 1000 Mbps
Duplex: full
Link Failure Count: 1
Slave queue ID: 0
- 是,該環境的網卡為主備bond模式,執行步驟13。
- 否,執行步驟14。
- 檢查該告警中NetworkCardName參數對應的網卡是否為備網卡。
- 是,備網卡的告警無法自動恢復,請在告警管理頁面手動清除該告警,處理完畢。
- 否,執行步驟14。
說明備網卡判斷方式:查看配置文件 /proc/net/bonding/bond0 ,NetworkCardName參數對應的網卡名稱等于其中一個 Slave Interface ,但是不等于 Currently Active Slave (當前主網卡),則該網卡為備網卡。
檢查閾值設置是否合理
- 登錄FusionInsight Manager,選擇“運維 > 告警 > 閾值設置 > 待操作集群的名稱 > 主機 > 網絡讀信息 > 讀包丟包率”,查看該告警閾值是否合理(默認0.5%為合理值,用戶可以根據自己的實際需求調整)。
- 是,執行步驟 17。
- 否,執行步驟 15。
- 根據實際服務的使用情況在“運維 > 告警 > 閾值設置 > 待操作集群的名稱 > 主機 > 網絡讀信息 > 讀包丟包率”,單擊“操作”列的“修改”,更改告警閾值。如下圖所示。

- 等待5分鐘,檢查該告警是否恢復。
- 是,處理完畢。
- 否,執行步驟 17。
檢查網絡是否異常
- 聯系系統管理員,檢查網絡是否存在異常。
- 是,恢復網絡故障,執行步驟 18。
- 否,執行步驟 19。
- 等待5分鐘,檢查該告警是否恢復。
- 是,處理完畢。
- 否,執行步驟 19。
收集故障信息
- 在主集群的FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
- 在“服務”中勾選“OMS”,單擊“確定”。
- 設置“主機”為告警所在節點和主OMS節點。
- 單擊右上角的

設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后30分鐘,單擊“下載”。 - 請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。