告警解釋
系統每30秒周期性檢測Hive數據倉庫空間使用率,該指標可在Hive服務監控界面查看,指標名稱為“Hive已經使用的HDFS空間占可使用空間的百分比”。Hive數據倉庫空間使用率指標默認提供一個閾值范圍(85%),當檢測到Hive數據倉庫空間使用率超過閾值范圍時產生該告警。
用戶可通過“運維 >告警 >閾值設置 > 待操作集群的名稱 > Hive > Hive已經使用的HDFS空間占可使用空間的百分比”修改閾值。
平滑次數為1,Hive數據倉庫空間使用率小于或等于閾值時,告警恢復;平滑次數大于1,Hive數據倉庫空間使用率小于或等于閾值的90%時,告警恢復。
說明管理員可通過增加倉庫容量或釋放部分已使用空間的方式降低倉庫空間使用率。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 16001 | 次要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
| Trigger condition | 系統當前指標取值滿足自定義的告警設置條件。 |
對系統的影響
系統可能無法正常寫入數據,導致部分數據丟失。
可能原因
- Hive使用HDFS容量上限過小。
- HDFS空間不足。
- 部分數據節點癱瘓。
處理步驟
擴展系統配置
1.分析集群HDFS使用情況,增加HDFS分配給Hive使用的容量上限。
登錄FusionInsight Manager,選擇“集群 > 待操作集群的名稱 > 服務 > Hive > 配置”,選擇“全部配置”,然后查找“hive.metastore.warehouse.size.percent”,調大該配置項。設配置項的值為A,HDFS總存儲空間為B,閾值為C,Hive已經使用HDFS的空間大小為D。調整策略為A x B x C > D ,HDFS總存儲空間可在HDFS NameNode頁面查看,Hive已經使用HDFS的空間大小可在Hive的監控界面查看監控指標“Hive已經使用的HDFS空間大小”。
2.檢查該告警是否恢復。
- 是,操作結束。
- 否,執行步驟3。
對系統進行擴容
3.對系統進行擴容。
4.檢查該告警是否恢復。
- 是,操作結束。
- 否,執行步驟5。
檢查數據節點是否正常
5.在FusionInsight Manager首頁,選擇“運維 > 告警 > 告警”。
6.查看是否有“ALM-12006 節點故障”、“ALM-12007 進程故障”、“ALM-14002 DataNode磁盤空間使用率超過閾值”告警。
- 是,執行步驟7。
- 否,執行步驟9。
7.分別參考“ALM-12006 節點故障”、“ALM-12007 進程故障”、“ALM-14002 DataNode磁盤空間使用率超過閾值”的處理步驟處理告警。
8.查看本告警是否恢復。
- 是,操作結束。
- 否,執行步驟9。
收集故障信息
9.在FusionInsight Manager首頁,選擇“運維 > 日志 > 下載”。
10.在“服務”中勾選待操作集群的“Hive”。
11.單擊右上角的
設置日志收集的“開始時間”和“結束時間”,分別為告警產生時間的前后10分鐘,單擊“下載”。
12.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。