ALM-12101 AZ不健康
更新時間 2023-06-28 18:54:22
最近更新時間: 2023-06-28 18:54:22
分享文章
本章節主要介紹ALM-12101 AZ不健康。
告警解釋
AZ容災開啟后,系統每隔5分鐘檢查一次當前系統上AZ的健康狀態,當檢測到AZ健康狀態為亞健康或者不健康時產生告警。AZ健康狀態恢復健康時,告警清除。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 12101 | 重要 | 是 |
告警參數
| 告警參數 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群或系統名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| AZ名 | 產生告警的AZ名稱。 |
| 主機名 | 產生告警的主機名。 |
對系統的影響
AZ的健康狀態由AZ內的存儲資源(HDFS)、計算資源(Yarn)和關鍵角色的健康度是否超過配置閾值決定。
AZ亞健康有兩種:
- 計算資源(Yarn)不健康,存儲資源(HDFS)健康,任務無法提交到本AZ,但是數據可以繼續往本AZ內讀寫。
- 計算資源(Yarn)健康,存儲資源(HDFS)部分不健康,任務可以提交到本AZ,部分數據可以在本AZ內讀寫,依賴于Spark/Hive調度感知數據的本地性。
AZ不健康有三種:
- 計算資源(Yarn)健康,存儲資源(HDFS)不健康,任務雖然可以提交到本AZ,但是數據無法在本AZ內讀寫,導致任務提交到本AZ無意義。
- 計算資源(Yarn)不健康,存儲資源(HDFS)不健康,任務無法提交到本AZ,數據也無法往本AZ內讀寫。
- 除Yarn與HDFS以外,關鍵角色的健康度低于配置閾值。
可能原因
- 計算資源(Yarn)不健康。
- 存儲資源(HDFS)不健康。
- 存儲資源(HDFS)部分不健康。
- 除Yarn與HDFS以外,關鍵角色不健康。
處理步驟
關閉容災演練
1.在FusionInsight Manager頁面,選擇“集群 > 待操作集群的名稱 > 跨AZ高可用”,打開跨AZ高可用頁面。
2.檢查AZ容災列表中健康狀態為“非健康”的AZ所在行的操作列中的“容災演練”是否為灰色。
- 是,執行步驟4。
- 否,執行步驟3。
3.單擊目標AZ行“操作”列中的“恢復”,待恢復后。等待2分鐘,刷新頁面查看該AZ健康狀態。查看是否健康恢復。
- 是,處理完畢。
- 否,執行步驟4。
收集故障信息
4.以root用戶登錄主管理節點。
5.查看不健康服務的日志信息。
- HDFS的日志文件存儲路徑為“/var/log/Bigdata/hdfs/nn/hdfs-az-state.log”。
- Yarn的日志文件存儲路徑為“/var/log/Bigdata/yarn/rm/yarn-az-state.log”。
- 其余服務請查看對應服務日志目錄下的服務健康檢查日志。
6.請聯系運維人員,并提供日志文件詳細信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。