告警解釋
系統每隔5分鐘檢查一次系統中關鍵的配置是否正確,如果不正常,則上報故障告警。
當檢查到配置正確時,則告警恢復。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 12042 | 重要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群或系統名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
| 路徑名 | 異常的文件路徑或者名稱。 |
對系統的影響
導致文件所屬服務功能不正常。
可能原因
用戶手動修改了文件配置或者系統異常下電等原因。
處理步驟
檢查異常文件配置
1.在FusionInsight Manager界面,選擇“運維 > 告警 > 告警”。
2.查看該告警“定位信息”中對應的“主機名”字段值,獲取該告警產生的主機名,查看定位信息中對應的“路徑名”字段值,獲取異常的文件路徑或者名稱。
3.以root用戶登錄告警所在節點。
4.查看日志文件“$BIGDATA_LOG_HOME/nodeagent/scriptlog/checkfileconfig.log”,根據錯誤日志分析原因。在下方“參考信息”中查找該文件的檢查標準,并對照檢查標準對文件進行進一步的手動檢查和修改。
執行 vi 文件名命令進入編輯模式,按“Insert”鍵開始編輯。
修改完成后按“Esc”鍵退出編輯模式,并輸入:wq保存退出。
例如:
vi/etc/ssh/sshd_config
5.等待一個小時,進入下一次檢查,查看告警是否恢復。
- 是,操作結束。
- 否,執行步驟 6。
收集故障信息
6.在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
7.在“服務”中勾選“NodeAgent”,單擊“確定”。
8.單擊右上角的
設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后10分鐘,單擊“下載”。
9.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
- /etc/fstab 檢查文件的檢查標準
檢查“/etc/fstab”文件中配置的分區,是否在“/proc/mounts”中能找到。
檢查在“fstab”中配置的swap分區,是否和“/proc/swaps”一一對應。
- /etc/hosts 檢查文件的檢查標準
通過命令cat /etc/hosts查看是否存在以下幾種情況,如果是,則說明該配置文件配置異常。
a. “/etc/hosts”文件不存在。
b. 該主機的主機名不在文件中配置。
c. 該主機名對應的IP不唯一。
d. 該主機名對應的IP在ifconfig命令下的回顯列表中不存在。
e. 該文件中存在一個IP對應多個主機名的情況。
- /etc/ssh/sshd_config 檢查文件的檢查標準
通過命令vi /etc/ssh/sshd_config查看下面幾個配置項是否正確。
a. “UseDNS”項必須配置為“no”。
b. “MaxStartups”必須配置為大于等于1000。
c. “PasswordAuthentication”和“ChallengeResponseAuthentication”兩個配置項中必須至少有一項沒有配置或者至少有一項配置為“yes”。