告警解釋
系統每隔5分鐘檢查一次系統中關鍵目錄或者文件權限、用戶、用戶組是否正常,如果不正常,則上報故障告警。
當檢查到權限等均正常,則告警恢復。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 12041 | 重要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群或系統名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
| 路徑名 | 異常的文件路徑或者名稱。 |
對系統的影響
導致系統功能不可用。
可能原因
用戶手動修改了文件權限、用戶和用戶組等信息或者系統異常下電等原因導致文件權限異常或文件丟失。
處理步驟
檢查異常文件是否存在及異常文件的權限是否正確
1.在FusionInsight Manager界面,選擇“運維 > 告警 > 告警”。
2.查看該告警“定位信息”中對應的“主機名”字段值,獲取該告警產生的主機名,查看定位信息中對應的“路徑名”字段值,獲取異常的文件路徑或者名稱。
3.以root用戶登錄告警所在節點。
4.執行ll 路徑名命令,其中路徑名為步驟2獲取到的異常文件,獲取到該文件或者目錄在主機上的當前的用戶,權限,用戶組等信息。
5.進入“${BIGDATA_HOME}/om-agent/nodeagent/etc/agent/autocheck”目錄,然后執行vi keyfile命令,并搜索對應的異常文件名,可以看到該文件的正確權限。

說明除keyfile中所列出的文件和目錄外,為保證主備OMS配置同步正常,“$OMS_RUN_PATH/workspace/ha/module/hasync/plugin/conf/filesync.xml”中配置的文件、目錄以及目錄下的文件和子目錄也會被監控,其中文件要求omm用戶具有可讀寫權限,目錄要求omm用戶具有可讀和可執行權限。
6.對比當前主機上該文件的真實權限和步驟5中獲取到的文件應有權限,對該文件進行正確的權限和用戶,用戶組信息的修改。
7.等待一個小時,進入下一次檢查,查看告警是否恢復。
- 是,操作結束。
- 否,執行步驟8。
說明如果集群安裝目錄所在磁盤分區已滿,部分程序安裝目錄會由于sed命令執行失敗,產生一些臨時文件,且沒有讀寫可執行權限。如果這些文件產生在該告警的監控范圍內,那么系統會上報該告警,告警原因可以看到是由于產生的臨時文件權限異常導致,可以參照上述告警處理流程處理該告警,或者確認權限異常文件為臨時文件后,可以直接刪除。sed命令產生的臨時文件類似于下圖。
收集故障信息
8.在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
9.在“服務”中勾選“NodeAgent”,單擊“確定”。
10.單擊右上角的
設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后10分鐘,單擊“下載”。
11.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無