告警解釋
系統按30秒周期性檢測LdapServer數據,如果連續12次檢測,Manager的主備LdapServer的數據內容都不一致,產生該告警,當兩者的數據一致時,對應告警恢復。
系統按30秒周期性檢測LdapServer數據,如果連續12次檢測,集群中的LdapServer的數據與Manager的LdapServer數據都不一致,產生該告警,當兩者的數據一致時,對應告警恢復。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 25004 | 緊急 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機節點信息。 |
對系統的影響
LdapServer數據不一致時,有可能是Manager上的LdapServer數據損壞,也有可能是集群上的LdapServer數據損壞,此時數據損壞的LdapServer進程將無法對外提供服務,影響Manager和集群的認證功能。
可能原因
- LdapServer進程所在的節點網絡故障。
- LdapServer進程異常。
- OS重啟導致的LdapServer數據損壞。
處理步驟
檢查LdapServer所在的節點網絡是否故障
1.在FusionInsight Manager界面,選擇“運維 > 告警 > 告警”。記錄該告警定位信息中的“主機名”的IP地址為IP1(若出現多個告警,則分別記錄其中的IP地址為IP1、IP2、IP3等)。
2.聯系運維人員,登錄IP1節點,在這個節點上使用ping命令檢查該節點與主OMS節點的管理平面IP是否可達。
- 是,執行步驟4。
- 否,執行步驟3。
3.聯系網絡管理員恢復網絡,然后查看“LdapServer數據同步異常”告警是否恢復。
- 是,處理完畢。
- 否,執行步驟4。
檢查LdapServer進程是否正常
4.在FusionInsight Manager的“告警”頁面,查看是否有LdapServer的“OLdap資源異常”告警產生。
- 是,執行步驟5。
- 否,執行步驟7。
5.按照“ALM-12004 OLdap資源異常”提供的步驟處理該告警。
6.在告警列表中查看“LdapServer數據同步異常”告警是否清除。
- 是,處理完畢。
- 否,執行步驟7。
7.在FusionInsight Manager的“告警”頁面,查看是否有LdapServer的“進程故障”告警產生。
- 是,執行步驟8。
- 否,執行步驟10。
8.按照“ALM-12007 進程故障”提供的步驟處理該告警。
9.在告警列表中查看“LdapServer數據同步異常”告警是否清除。
- 是,處理完畢。
- 否,執行步驟10。
檢查是否存在因為OS重啟導致LdapServer數據損壞
10.在FusionInsight Manager界面,選擇“運維 > 告警 > 告警”。記錄該告警定位信息中的“主機名”的IP地址為IP1(若出現多個告警,則分別記錄其中的IP地址為IP1,IP2,IP3等)。選擇“集群 > 待操作集群的名稱 > 服務 > LdapServer > 配置”,記錄LdapServer的端口號PORT(若告警定位信息中的IP地址為備管理節點IP地址,選擇“系統 > OMS > oldap > 修改配置”,記錄LdapServer服務偵聽端口號)。
11.以omm用戶登錄IP1節點。
12.執行以下命令,觀察查詢出來的內容是否提示有error錯誤信息。
ldapsearch -H ldaps://IP1:PORT -LLL -x -D cn=root,dc=hadoop,dc=com -W -b ou=Peoples,dc=hadoop,dc=com
執行命令后需輸入LDAP管理員密碼,請聯系系統管理員獲取。
- 是,執行步驟13。
- 否,執行步驟15。
13.使用告警出現日期之前的備份文件進行LdapServer恢復和OMS恢復。
說明必須使用同一時間點的OMS和LdapServer備份數據進行恢復,否則可能造成業務和操作失敗。當業務正常時需要恢復數據,建議手動備份最新管理數據后,再執行恢復數據操作,否則會丟失從備份時刻到恢復時刻之間的Manager數據。
14.在告警列表中查看“LdapServer數據同步異常”告警是否清除。
- 是,處理完畢。
- 否,執行步驟15。
收集故障信息
15.在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
16.在“服務”中勾選待操作集群的“LdapServer”和“OmsLdapServer”。
17.單擊右上角的
設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后1小時,單擊“下載”。
18.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。