為了保證系統長期正常、穩定的運行,管理員或維護工程師需要定期對下表所示的項目進行檢查,并根據檢查出的異常結果排除故障。建議檢查人員根據企業管理規范,記錄每個任務場景的結果并簽名確認。
項目一覽表
例行維護周期 任務場景 例行維護內容 每天
檢查集群服務狀態 l? ? 檢查每個服務的運行狀態和配置狀態是否正常,是否為綠色。
l? ? 檢查每個服務中,角色實例的運行狀態和配置狀態是否正常,是否為綠色。
l? ? 檢查每個服務中,角色實例的主備狀態是否可以正常顯示。
l? ? 檢查服務與角色實例的“概覽”顯示結果是否正常。
檢查集群主機狀態
l? ? 檢查每個主機當前的運行狀態是否正常,是否為綠色。
l? ? 檢查每個主機當前的磁盤使用率、內存使用率和CPU使用率。關注當前內存與CPU使用率是否處于上升趨勢。
檢查集群告警信息
檢查前一天是否生成了未處理異常告警,包含已自動恢復的告警。
檢查集群審計信息
檢查前一天是否有“高危”和“危險”的操作,是否已確認操作的合法性。
檢查集群備份情況
檢查前一天OMS、LDAP、DBService和NameNodeOMS、LDAP和DBServiceOMS、LDAP是否自動備份。
檢查健康檢查結果
在FusionInsight ? Manager執行健康檢查,下載健康檢查報告確認當前集群是否存在異常狀態。建議啟用自動健康檢查,并及時導出最新的集群健康檢查結果,根據檢查結果修復不健康項目。
檢查網絡通訊
檢查集群網絡工作狀態,節點之間的網絡通訊是否存在延時。
檢查存儲狀態
檢查集群總體數據存儲量是否出現了突然的增長:
l? ? 磁盤使用量是否已接近閾值,排查原因,例如是否有業務留下的垃圾數據或冷數據需要清理。
l? ? 業務是否有增長需求,磁盤分區是否需要擴容。
檢查日志情況
l? ? 檢查是否有失敗、失去響應的MapReduce、Spark任務,查看HDFS中“/tmp/logs/${username}/logs/${application ? id}”日志文件并排除問題。
l? ? 檢查Yarn的任務日志,查看失敗、失去響應的任務日志,并刪除重復數據。
l? ? 檢查Storm的worker日志。
l? ? 備份日志到存儲服務器。
每周
用戶管理
檢查用戶密碼是否將要過期并通知修改。“機機用戶”用戶修改密碼需要重新下載keytab文件。
分析告警
導出指定周期內產生的告警并分析。
掃描磁盤
對磁盤健康狀態進行檢查,建議使用專門的磁盤檢查工具。
統計存儲
分批次排查集群節點磁盤數據是否均勻存儲,篩選出明顯數據增加或不足的硬盤,并確認硬盤是否正常。
記錄變更
安排并記錄對集群配置參數和文件實施的操作,為故障分析處理場景提供依據。
每月
分析日志
l? ? 收集集群節點服務器的硬件日志,例如BMC系統日志,并進行分析。
l? ? 收集集群節點服務器的操作系統日志,并進行分析。
l? ? 收集集群日志,并進行分析。
診斷網絡
對集群的網絡健康狀態進行分析。
管理硬件
檢查設備運行的機房環境,安排清潔設備。