ALM-12089 節點間網絡互通異常
更新時間 2023-07-17 15:53:34
最近更新時間: 2023-07-17 15:53:34
分享文章
本章節主要介紹 ALM-12089 節點間網絡互通異常。
告警解釋
告警模塊按10s周期檢測集群間節點的網絡健康狀態。當檢測到某兩臺節點之間網絡不可達或者網絡狀態不穩定,產生該告警。
當網絡恢復正常,告警恢復。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 12089 | 重要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群或系統名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
對系統的影響
集群節點間網絡健康狀態不好時,會影響某些組件的功能使用,如HDFS,ZooKeeper等。
可能原因
- 節點宕機。
- 網絡故障。
處理步驟
確認網絡健康狀態
1.打開FusionInsight Manager頁面,在告警列表中,單擊此告警所在行的
,查看附加信息中的描述信息。明確具體發生告警源IP地址及目標IP,并記錄兩個IP地址。
2.登錄告警上報節點,在告警上報節點上使用ping命令,向目標節點手動發起ping請求,檢查兩個節點之間的網絡狀態是否正常。
- 是,執行6。
- 否,執行3。
確認節點狀態
3.在FusionInsight Manager界面,單擊“主機”查看主機列表中是否包含故障節點,確認故障節點是否已從集群中移除。
- 是,執行5。
- 否,執行4。
4.查看故障節點運行狀態,判斷是否處于關機狀態。
- 是,啟動故障節點,執行步驟2。
- 否,聯系相關工作人員定位問題,若需要從集群中移除故障節點,執行5,否則執行6。
5.將故障節點從集群所有節點的$NODE_AGENT_HOME/etc/agent/hosts.ini文件中移除,并清空/var/log/Bigdata/unreachable/unreachable_ip_info.log文件內容,同時手動清除告警。
6.等待30s查看告警是否自動清除。
- 是,處理完畢。
- 否,執行7。
收集故障信息
7.在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
8.在“服務”中勾選“OmmAgent”,單擊“確定”。
9.單擊右上角的
設置日志收集的時間范圍,一般為告警產生時間的前后10秒鐘,單擊“下載”。
10.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。