告警解釋
系統每60秒周期性檢測sssd服務的狀態,如果連續4次(3分鐘)查詢不到sssd進程或者無法獲取LdapServer中的用戶時,產生該告警。
當進程恢復且可以獲取LdapServer中的用戶時,告警恢復。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 25006 | 重要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 主機名 | 產生告警的主機節點信息。 |
對系統的影響
sssd服務不可用時,可能會影響該節點從LdapServer上同步數據,此時,使用id命令可能會獲取不到ldap中的數據,影響上層業務。
可能原因
- sssd服務未啟動或啟動錯誤。
- 網絡故障,無法訪問Ldap服務器。
- Name Service服務異常。
- OS執行命令慢導致無法查詢用戶。
處理步驟
檢查sssd服務是否啟動或啟動錯誤
1.在FusionInsight Manager界面,選擇“運維 > 告警 > 告警”。記錄該告警定位信息中的“主機名”的IP地址為IP1(若出現多個告警,則分別記錄其中的IP地址為IP1、IP2、IP3等)。
2.聯系運維人員,以root用戶登錄IP1節點,在該節點執行ps -ef | grep sssd命令,查看是否有/usr/sbin/sssd進程啟動。
- 是,執行步驟3。
- 否,執行步驟4。
3.查看步驟2中查詢的sssd進程是否有三個子進程。
- 是,執行步驟5。
- 否,執行步驟4。
4.以root用戶執行service sssd restart命令重啟sssd服務,執行ps -ef | grep sssd命令,查看sssd進程是否正常。
正常狀態為:存在/usr/sbin/sssd進程和三個子進程/usr/libexec/sssd/sssd_be、/usr/libexec/sssd/sssd_nss、/usr/libexec/sssd/sssd_pam。
- 是,執行步驟9。
- 否,執行步驟13。
檢查網絡是否故障,無法訪問ldap服務器
5.用root用戶登錄故障節點,在這個節點上使用ping命令檢查該節點與LdapServer節點的網絡是否暢通。
- 是,執行步驟6。
- 否,請聯系網絡管理員,解決網絡故障。
檢查Name Service服務是否異常
6.用root用戶登錄故障節點,執行命令 cat /etc/nsswitch.conf ,查看NameService配置中的“passwd”、“group”兩項配置是否正確。
正確配置請參照:“passwd: files sss”、“group: files sss”。
- 是,執行步驟7。
- 否,執行步驟8。
7.用root用戶執行/usr/sbin/sss_cache -G和/usr/sbin/sss_cache -U命令,等待2分鐘,執行id admin和id backup/manager命令,查看是否能查詢到結果。
- 是,執行步驟9。
- 否,執行步驟13。
8.以root用戶執行vi /etc/nsswitch.conf命令,將步驟6中的兩項配置項改成正確配置,保存后執行service sssd restart命令重啟sssd服務,等待2分鐘,執行id admin和id backup/manager命令,查看是否能查詢到結果。
- 是,執行步驟9。
- 否,執行步驟13。
9.登錄FusionInsight Manager界面,等待5分鐘,然后查看“Sssd服務異常”告警是否恢復。
- 是,處理完畢。
- 否,執行步驟10。
檢查操作系統執行命令是否卡頓
10.用root用戶登錄故障節點,執行命令 id admin ,觀察命令返回結果時長,觀察執行命令是否緩慢(超過3s即可認為執行命令慢)。
- 是,執行步驟11。
- 否,執行步驟13。
11.執行命令 cat /var/log/messages ,查看sssd是否頻繁重啟或者存在Can't contact LDAP server的異常信息。
sssd重啟樣例
Feb 7 11:38:16 10-132-190-105 sssd[pam]: Shutting down
Feb 7 11:38:16 10-132-190-105 sssd[nss]: Shutting down
Feb 7 11:38:16 10-132-190-105 sssd[nss]: Shutting down
Feb 7 11:38:16 10-132-190-105 sssd[be[default]]: Shutting down
Feb 7 11:38:16 10-132-190-105 sssd: Starting up
Feb 7 11:38:16 10-132-190-105 sssd[be[default]]: Starting up
Feb 7 11:38:16 10-132-190-105 sssd[nss]: Starting up
Feb 7 11:38:16 10-132-190-105 sssd[pam]: Starting up
- 是,執行步驟12。
- 否,執行步驟13。
12.執行命令 vi $BIGDATA_HOME/tmp/random_ldap_ip_order ,修改末尾數字,若原本為奇數則改為偶數,若原本為偶數則修改為奇數。
執行命令 vi /etc/sssd/sssd.conf ,將ldap_uri配置項的前兩個IP進行顛倒,保存退出。
執行命令ps -ef | grep sssd查詢sssd進程id,并將其kill掉,執行 /usr/sbin/sssd -D -f ,重啟sssd服務,等待5分鐘,再次執行id admin命令。
觀察返回結果時長,觀察執行命令是否緩慢。
- 是,執行步驟13。
- 否,登錄其他故障節點執行步驟10至步驟12;收集日志,并排查“/etc/sssd/sssd.conf”修改前ldap_uri中第一個ldapserver節點是否故障,例如業務IP不可達、網絡延時過長或者部署其他異常的軟件。
收集故障信息
13.在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
14.在“服務”中勾選待操作集群的“LdapClient”。
15.單擊右上角的
設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后1小時,單擊“下載”。
16.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。