例行维护-翼MapReduce-用户指南-FusionInsight Manager操作指导（适用于3.x）-集群管理

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

為了保證系統長期正常、穩定的運行，管理員或維護工程師需要定期對下表所示的項目進行檢查，并根據檢查出的異常結果排除故障。建議檢查人員根據企業管理規范，記錄每個任務場景的結果并簽名確認。

項目一覽表

例行維護周期 任務場景 例行維護內容
每天 檢查集群服務狀態 l? ? 檢查每個服務的運行狀態和配置狀態是否正常，是否為綠色。
l? ? 檢查每個服務中，角色實例的運行狀態和配置狀態是否正常，是否為綠色。
l? ? 檢查每個服務中，角色實例的主備狀態是否可以正常顯示。
l? ? 檢查服務與角色實例的“概覽”顯示結果是否正常。
檢查集群主機狀態 l? ? 檢查每個主機當前的運行狀態是否正常，是否為綠色。
l? ? 檢查每個主機當前的磁盤使用率、內存使用率和CPU使用率。關注當前內存與CPU使用率是否處于上升趨勢。
檢查集群告警信息 檢查前一天是否生成了未處理異常告警，包含已自動恢復的告警。
檢查集群審計信息 檢查前一天是否有“高危”和“危險”的操作，是否已確認操作的合法性。
檢查集群備份情況 檢查前一天OMS、LDAP、DBService和NameNodeOMS、LDAP和DBServiceOMS、LDAP是否自動備份。
檢查健康檢查結果 在FusionInsight ? Manager執行健康檢查，下載健康檢查報告確認當前集群是否存在異常狀態。建議啟用自動健康檢查，并及時導出最新的集群健康檢查結果，根據檢查結果修復不健康項目。
檢查網絡通訊 檢查集群網絡工作狀態，節點之間的網絡通訊是否存在延時。
檢查存儲狀態 檢查集群總體數據存儲量是否出現了突然的增長：
l? ? 磁盤使用量是否已接近閾值，排查原因，例如是否有業務留下的垃圾數據或冷數據需要清理。
l? ? 業務是否有增長需求，磁盤分區是否需要擴容。
檢查日志情況 l? ? 檢查是否有失敗、失去響應的MapReduce、Spark任務，查看HDFS中“/tmp/logs/${username}/logs/${application ? id}”日志文件并排除問題。
l? ? 檢查Yarn的任務日志，查看失敗、失去響應的任務日志，并刪除重復數據。
l? ? 檢查Storm的worker日志。
l? ? 備份日志到存儲服務器。
每周 用戶管理 檢查用戶密碼是否將要過期并通知修改。“機機用戶”用戶修改密碼需要重新下載keytab文件。
分析告警 導出指定周期內產生的告警并分析。
掃描磁盤 對磁盤健康狀態進行檢查，建議使用專門的磁盤檢查工具。
統計存儲 分批次排查集群節點磁盤數據是否均勻存儲，篩選出明顯數據增加或不足的硬盤，并確認硬盤是否正常。
記錄變更 安排并記錄對集群配置參數和文件實施的操作，為故障分析處理場景提供依據。
每月 分析日志 l? ? 收集集群節點服務器的硬件日志，例如BMC系統日志，并進行分析。
l? ? 收集集群節點服務器的操作系統日志，并進行分析。
l? ? 收集集群日志，并進行分析。
診斷網絡 對集群的網絡健康狀態進行分析。
管理硬件 檢查設備運行的機房環境，安排清潔設備。

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

智算服務

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

翼MapReduce

翼MapReduce

例行維護周期	任務場景	例行維護內容
每天	檢查集群服務狀態	l? ? 檢查每個服務的運行狀態和配置狀態是否正常，是否為綠色。 l? ? 檢查每個服務中，角色實例的運行狀態和配置狀態是否正常，是否為綠色。 l? ? 檢查每個服務中，角色實例的主備狀態是否可以正常顯示。 l? ? 檢查服務與角色實例的“概覽”顯示結果是否正常。
	檢查集群主機狀態	l? ? 檢查每個主機當前的運行狀態是否正常，是否為綠色。 l? ? 檢查每個主機當前的磁盤使用率、內存使用率和CPU使用率。關注當前內存與CPU使用率是否處于上升趨勢。
	檢查集群告警信息	檢查前一天是否生成了未處理異常告警，包含已自動恢復的告警。
	檢查集群審計信息	檢查前一天是否有“高危”和“危險”的操作，是否已確認操作的合法性。
	檢查集群備份情況	檢查前一天OMS、LDAP、DBService和NameNodeOMS、LDAP和DBServiceOMS、LDAP是否自動備份。
	檢查健康檢查結果	在FusionInsight ? Manager執行健康檢查，下載健康檢查報告確認當前集群是否存在異常狀態。建議啟用自動健康檢查，并及時導出最新的集群健康檢查結果，根據檢查結果修復不健康項目。
	檢查網絡通訊	檢查集群網絡工作狀態，節點之間的網絡通訊是否存在延時。
	檢查存儲狀態	檢查集群總體數據存儲量是否出現了突然的增長： l? ? 磁盤使用量是否已接近閾值，排查原因，例如是否有業務留下的垃圾數據或冷數據需要清理。 l? ? 業務是否有增長需求，磁盤分區是否需要擴容。
	檢查日志情況	l? ? 檢查是否有失敗、失去響應的MapReduce、Spark任務，查看HDFS中“/tmp/logs/${username}/logs/${application ? id}”日志文件并排除問題。 l? ? 檢查Yarn的任務日志，查看失敗、失去響應的任務日志，并刪除重復數據。 l? ? 檢查Storm的worker日志。 l? ? 備份日志到存儲服務器。
每周	用戶管理	檢查用戶密碼是否將要過期并通知修改。“機機用戶”用戶修改密碼需要重新下載keytab文件。
	分析告警	導出指定周期內產生的告警并分析。
	掃描磁盤	對磁盤健康狀態進行檢查，建議使用專門的磁盤檢查工具。
	統計存儲	分批次排查集群節點磁盤數據是否均勻存儲，篩選出明顯數據增加或不足的硬盤，并確認硬盤是否正常。
	記錄變更	安排并記錄對集群配置參數和文件實施的操作，為故障分析處理場景提供依據。
每月	分析日志	l? ? 收集集群節點服務器的硬件日志，例如BMC系統日志，并進行分析。 l? ? 收集集群節點服務器的操作系統日志，并進行分析。 l? ? 收集集群日志，并進行分析。
	診斷網絡	對集群的網絡健康狀態進行分析。
	管理硬件	檢查設備運行的機房環境，安排清潔設備。

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

活動

智算服務

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

翼MapReduce

翼MapReduce