執行健康檢查
更新時間 2023-08-24 10:28:25
最近更新時間: 2023-08-24 10:28:25
分享文章
本章節主要介紹翼MapReduce服務執行健康檢查。
操作場景
該任務指導用戶在日常運維中完成集群進行健康檢查的工作,以保證集群各項參數、配置以及監控沒有異常、能夠長時間穩定運行。
說明系統健康檢查的范圍包含Manager、服務級別和主機級別的健康檢查:
Manager關注集群統一管理平臺是否提供管理功能。
服務級別關注組件是否能夠提供正常的服務。
主機級別關注主機的一系列指標是否正常。
系統健康檢查可以包含三方面檢查項:各檢查對象的“健康狀態”、相關的告警和自定義的監控指標,檢查結果并不能等同于界面上顯示的“健康狀態”。
操作步驟
手動執行所有服務的健康檢查
- 單擊“服務管理”。
- 選擇“更多 > 啟動服務健康檢查”,啟動服務健康檢查。
說明
集群健康檢查包含了Manager、服務與主機狀態的檢查。
在MRS Manager界面,選擇“系統設置 > 維護 > 健康檢查 > 集群健康檢查”,也可以執行集群健康檢查。
手動執行健康檢查的結果可直接在檢查列表左上角單擊“導出報告”,選擇導出結果。
手動執行單個服務的健康檢查
- 選擇“服務管理”,在服務列表中單擊服務指定名稱。
- 選擇“更多 > 啟動服務健康檢查”啟動指定服務健康檢查。
手動執行主機健康檢查
- 單擊“主機管理”。
- 勾選待檢查主機前的復選框。
- 選擇“更多 > 啟動主機健康檢查”啟動指定主機健康檢查。
自動執行健康檢查
- 單擊“系統設置”。
- 單擊“維護”下方的“健康檢查”。
- 單擊“健康檢查配置”,配置自動執行健康檢查。
“健康檢查報告文件最大份數”:配置健康檢查報告文件最大份數。該值必須是整數,取值范圍1~100。
“定期健康檢查”配置是否啟用自動執行健康檢查。“定期健康檢查”的開關默認為關閉,單擊可啟用該功能,根據管理需要選擇“每天”、“每周”或“每月”。
- 單擊“確定”保存配置。系統右上角彈出提示“健康檢查配置保存成功。”