告警解釋
系統按60秒周期檢測Manager主備節點同步數據情況,當備Manager無法與主Manager同步文件時,產生該告警。
當備Manager與主Manager正常同步文件時,告警恢復。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 12011 | 緊急 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群或系統名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
對系統的影響
備Manager的配置文件沒有更新。主備倒換之后,一些配置可能會丟失。Manager及部分組件可能無法正常運行。
可能原因
- 主備Manager節點間鏈路中斷,/srv/BigData/LocalBackup目錄存儲空間已滿。
- 同步文件不存在,或者文件權限有誤。
處理步驟
檢查主備Manager服務器間的網絡是否正常
- 在FusionInsight Manager頁面,選擇“運維 > 告警 > 告警”,單擊此告警所在行的

,獲取該告警的備Manager(即Peer Manager)IP地址。 - 以root用戶登錄主Manager服務器。
- 執行**ping 備Manager IP地址命令檢查備Manager服務器是否可達。
- 是,執行步驟6。
- 否,執行步驟4。
- 聯系網絡管理員查看是否為網絡故障。
- 是,執行步驟5。
- 否,執行步驟6。
- 修復網絡故障,查看告警列表中,該告警是否已清除。
- 是,處理完畢。
- 否,執行步驟6。
檢查/srv/BigData/LocalBackup 目錄存儲空間是否已滿
- 執行以下命令檢查“/srv/BigData/LocalBackup”目錄存儲空間是否已滿:
df-hl /srv/BigData/LocalBackup
- 是,執行步驟7。
- 否,執行步驟10。
- 執行以下命令清理不需要的備份文件:
rm -rf 待清理的目錄路徑
例如:
rm -rf /srv/BigData/LocalBackup/0/default-oms_20191211143443
- 在FusionInsight Manager界面,選擇“運維 > 備份恢復 > 備份管理”。
在待操作備份任務右側“操作”欄下,單擊“配置”,修改“最大備份數”減少備份文件集數量。
- 等待大約1分鐘,查看告警列表中,該告警是否已清除。
- 是,處理完畢。
- 否,執行步驟10。
檢查同步文件是否存在,文件權限是否異常
- 執行以下命令查找同步文件是否存在。
find/srv/BigData/ -name "sed*"
find/opt -name "sed*"
- 是,執行步驟11。
- 否,執行步驟12。
- 執行以下命令,查看 步驟10查找出的同步文件信息及權限。
ll 待查找文件路徑
- 如果文件大小為0,且權限欄全為“-”,則為垃圾文件,請執行以下命令刪除。
rm -rf 待刪除文件
等待幾分鐘觀察告警是否清除,如果未清除則執行步驟12。
- 如果文件大小不為0,則執行步驟12。
12.查看發生告警時間段的日志文件。
- 執行以下命令,進入當前集群的HA運行日志文件路徑。
cd/var/log/Bigdata/omm/oms/ha/runlog /
- 解壓并查看發生告警時間段的日志文件。
例如,待查看文件名稱為“ha.log.2021-03-22_12-00-07.gz”,則執行以下命令:
gunzip ha.log.2021-03-22_12-00-07.gz
vi ha.log.2021-03-22_12-00-07
查看日志中,告警時間點前后是否有報錯信息。
-是,根據相關報錯信息進行處理。然后執行步驟13。
例如,查詢出報錯信息如下,表示目錄權限不足,則請修改對應目錄權限與正常節點保持一致。


-否,執行步驟14。
- 等待大約10分鐘,查看告警列表中,該告警是否已清除。
- 是,處理完畢。
- 否,執行步驟14。
收集故障信息
14.在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
15.在“服務”中勾選如下節點信息,單擊“確定”。
- OmmServer
- Controller
- NodeAgent
- 單擊右上角的

設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后10分鐘,單擊“下載”。 - 請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。