告警解釋
在主NameNode節點上,系統每5分鐘檢測一次集群中所有JournalNode節點的數據同步性。如果有JournalNode節點的數據不同步,系統產生該告警。
當Journalnode數據同步5分鐘后,告警恢復。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 14012 | 重要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
| NameService名 | 產生告警的NameService名稱。 |
對系統的影響
當一個JournalNode節點工作狀態異常時,其數據就會與其他JournalNode節點的數據不同步。如果超過一半的JournalNode節點的數據不同步時,NameNode將無法工作,導致HDFS服務不可用。
可能原因
- JournalNode實例不存在(被刪除或被遷移)。
- JournalNode實例未啟動或已停止。
- JournalNode實例運行狀態異常。
- JournalNode節點的網絡不可達。
處理步驟
查看JournalNode實例是否啟動
1.在FusionInsight Manager首頁,選擇“運維 > 告警 > 告警”,在告警列表中單擊此告警。
2.查看“定位信息”,獲取告警產生的JournalNode節點IP地址。
3..選擇“集群 > 待操作集群的名稱 > 服務 > HDFS > 實例”,在實例列表中查看告警節點上是否存在JournalNode實例。
- 是,執行步驟5。
- 否,執行步驟4。
4.選擇“運維 > 告警 > 告警”,在告警列表中單擊此告警“操作”欄中的“清除”,在彈出窗口中單擊“確定”,處理完畢。
5.單擊該JournalNode實例,查看其“配置狀態”是否為“已同步”。
- 是,執行步驟8。
- 否,執行步驟6。
6.勾選該JournalNode實例,單擊“啟動實例”,等待啟動完成。
7.等待5分鐘后,查看告警是否清除。
- 是,處理完畢。
- 否,執行步驟15。
查看JournalNode實例運行狀態是否正常
8.查看該JournalNode實例的“運行狀態”是否為“良好”。
- 是,執行步驟11。
- 否,執行步驟9。
9.勾選該JournalNode實例,選擇“更多 > 重啟實例”,等待啟動完成。
10.等待5分鐘后,查看告警是否清除。
- 是,處理完畢。
- 否,執行步驟15。
查看JournalNode節點網絡是否可達
11.在FusionInsight Manager首頁,選擇“集群 > 待操作集群的名稱 > 服務 > HDFS > 實例”,查看主NameNode節點的業務IP地址。
12.以root用戶登錄主NameNode節點。
13.使用ping命令檢查主NameNode與該JournalNode之間的網絡狀況,是否有超時或者網絡不可達的情況。
ping JournalNode的業務IP地址
- 是,執行步驟14。
- 否,執行步驟15。
14.聯系網絡管理員處理網絡故障,故障恢復后等待5分鐘,查看告警是否清除。
- 是,處理完畢。
- 否,執行步驟15。
收集故障信息
15.在FusionInsight Manager首頁,選擇“運維 > 日志 > 下載”。
16.在“服務”中勾選待操作集群的“HDFS”。
17.單擊右上角的
設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后30分鐘,單擊“下載”。
18.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。