HDFS健康檢查指標項說明
更新時間 2023-05-30 21:14:51
最近更新時間: 2023-05-30 21:14:51
分享文章
本章節主要介紹翼MapReduce服務HDFS健康檢查指標項說明。
發送包的平均時間統計
指標項名稱 :發送包的平均時間統計
指標項含義 :HDFS文件系統中DataNode每次執行SendPacket的平均時間統計,如果大于2000000納秒,則認為不健康。
恢復指導: 如果該指標項異常,則需要檢查集群的網絡速度是否正常、內存或CPU使用率是否過高。同時檢查集群中HDFS負載是否過高。
服務健康狀態
指標項名稱: 服務狀態
指標項含義 :檢查HDFS服務狀態是否正常。如果節點有故障,則認為不健康。
恢復指導: 如果該指標項異常,建議檢查KrbServer、LdapServer、ZooKeeper三個服務的狀態是否為異常并處理。然后再檢查是否是HDFS SafeMode ON導致的寫文件失敗,并使用客戶端,確認是否無法在HDFS中寫入數據,排查HDFS寫數據失敗的原因。最后參見告警進行處理。
檢查告警
指標項名稱: 告警信息
指標項含義 :檢查HDFS服務是否存在未清除的告警。如果存在,則認為不健康。
恢復指導: 如果該指標項異常,請參見告警進行修復。