告警解釋
系統每30秒周期性檢測每個DataNode上的塊數,當檢測到當前的DataNode節點上塊數超過閾值時產生該告警。
如果平滑次數為1,DataNode節點上的塊數小于或等于閾值時,告警恢復;如果平滑次數大于1,DataNode節點上的塊數小于或等于閾值的90%時,告警恢復。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 14026 | 次要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
| Trigger condition | 系統當前指標取值滿足自定義的告警設置條件。 |
對系統的影響
上報DataNode塊數超過閾值告警時,表示該DataNode節點上塊數太多,繼續寫入可能會由于磁盤空間不足導致寫入HDFS數據失敗。
可能原因
- 告警閾值配置不合理。
- DataNode節點間數據傾斜。
- HDFS集群配置的磁盤空間不足。
處理步驟
修改閾值配置
1.在FusionInsight Manager首頁,選擇“集群 > 待操作集群的名稱 > HDFS > 配置 > 全部配置”,查找HDFS->DataNode下的GC_OPTS參數。
2.配置DataNode塊數閾值:修改GC_OPTS參數中Xmx的值(Xmx內存值對應節點塊數閾值為每GB對應500000塊數,用戶根據需要調整內存值),確認GC_PROFILE的值為custom,保存配置。
3.選擇“集群 > 待操作集群的名稱 > HDFS > 實例”勾選狀態為“配置過期”的DataNode實例,選擇“更多 > 重啟實例”使GC_OPTS配置生效。
4.等待5分鐘,檢查該告警是否恢復。
- 是,處理完畢。
- 否,執行步驟5。
查看是否有關聯告警
5.在FusionInsight Manager首頁,選擇“運維 > 告警 > 告警”中查看是否存在告警“ALM-14002 DataNode磁盤空間使用率超過閾值”。
- 是,執行步驟6。
- 否,執行步驟8。
6.參考“ALM-14002 DataNode磁盤空間使用率超過閾值”進行處理,查看對應告警是否清除。
- 是,執行步驟7。
- 否,執行步驟8。
7.等待5分鐘,檢查該告警是否恢復。
- 是,處理完畢。
- 否,執行步驟8。
對DataNode進行擴容
8.對DataNode進行擴容。
9.在FusionInsight Manager首頁,等待5分鐘后,查看本告警是否清除。
- 是,處理完畢。
- 否,執行步驟10。
收集故障信息
10.在FusionInsight Manager首頁,選擇“運維 > 日志 > 下載”。
11.在“服務”中勾選待操作集群的“HDFS”。
12.單擊右上角的
設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后20分鐘,單擊“下載”。
13.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
DataNode JVM參數配置規則
DataNode JVM參數“GC_OPTS”默認值為:
-Xms2G -Xmx4G -XX:NewSize=128M -XX:MaxNewSize=256M -XX:MetaspaceSize=128M -XX:MaxMetaspaceSize=128M -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -XX:CMSInitiatingOccupancyFraction=65 -XX:+PrintGCDetails -Dsun.rmi.dgc.client.gcInterval=0x7FFFFFFFFFFFFFE -Dsun.rmi.dgc.server.gcInterval=0x7FFFFFFFFFFFFFE -XX:-OmitStackTraceInFastThrow -XX:+PrintGCDateStamps -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=1M -Djdk.tls.ephemeralDHKeySize=2048
集群中每個DataNode實例平均保存的Blocks= HDFS Block 3÷DataNode節點數,單個DataNode實例平均Block數量變化時請修改默認值中的“-Xms2G -Xmx4G -XX:NewSize=128M -XX:MaxNewSize=256M”。參考值如下表所示。
DataNode JVM配置
| 單個DataNode實例平均Block數量 | 參考值 |
|---|---|
| 2,000,000 | -Xms6G -Xmx6G -XX:NewSize=512M -XX:MaxNewSize=512M |
| 5,000,000 | -Xms12G -Xmx12G -XX:NewSize=1G -XX:MaxNewSize=1G |
Xmx內存值對應DataNode節點塊數閾值,每GB對應500000塊數,用戶可根據需要調整內存值。