ALM-12006 節點故障
更新時間 2023-06-28 20:15:27
最近更新時間: 2023-06-28 20:15:27
分享文章
本章節主要介紹ALM-12006 節點故障。
告警解釋
Controller按30秒周期檢測NodeAgent心跳。當Controller未接收到某一個NodeAgent的心跳,則嘗試重啟該NodeAgent進程,如果連續三次重啟失敗,產生該告警。
當Controller可以正常接收時,告警恢復。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 12006 | 重要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群或系統名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
對系統的影響
節點業務無法提供。
可能原因
網絡斷連、硬件故障或操作系統執行命令緩慢。
處理步驟
檢查網絡是否斷連、硬件是否故障或者操作系統執行命令緩慢
- 在FusionInsight Manager頁面,選擇“運維 > 告警 > 告警”,單擊此告警所在行的
,單擊主機名,查看該告警的主機地址。 - 以root用戶登錄主管理節點。
- 執行ping 故障主機IP地址命令檢查故障節點是否可達。
- 是,執行步驟12。
- 否,執行步驟4。
- 聯系網絡管理員查看是否為網絡故障。
- 是,執行步驟5。
- 否,執行步驟6。
- 修復網絡故障,查看告警列表中,該告警是否已清除。
- 是,處理完畢。
- 否,執行步驟6。
- 聯系系統管理員查看是否節點硬件故障(CPU或者內存等)。
- 是,執行步驟7。
- 否,執行步驟12。
- 維修或者更換故障部件,并重啟節點。查看告警列表中,該告警是否已清除。
- 是,處理完畢。
- 否,執行步驟8。
- 當集群中上報大量的節點故障時,可能是浮動IP資源異常導致Controller無法檢測NodeAgent心跳。
登錄任一管理節點,查看“/var/log/Bigdata/omm/oms/ha/scriptlog/floatip.log”,查看故障出現前后1-2分鐘的日志是否完整。
例如:完整日志為如下格式:
2017-12-09 04:10:51,000 INFO (floatip) Read from
${BIGDATA_HOME}/om-server_8.1.0.1/om/etc/om/routeSetConf.ini,value is : yes
2017-12-09 04:10:51,000 INFO (floatip) check wsNetExport : eth0 is up.
2017-12-09 04:10:51,000 INFO (floatip) check omNetExport : eth0 is up.
2017-12-09 04:10:51,000 INFO (floatip) check wsInterface : eRth0:oms,
wsFloatIp: XXX.XXX.XXX.XXX.
2017-12-09 04:10:51,000 INFO (floatip) check omInterface : eth0:oms, omFloatIp:
XXX.XXX.XXX.XXX.
2017-12-09 04:10:51,000 INFO (floatip) check
wsFloatIp : XXX.XXX.XXX.XXX is reachable.
2017-12-09 04:10:52,000 INFO (floatip) check
omFloatIp : XXX.XXX.XXX.XXX is reachable.
- 是,執行步驟12。
- 否,執行步驟9。
- 查看檢測完wsNetExport后是否打印omNetExport的檢測日志或兩條日志打印間隔時間超過10s或更長。
- 是,執行步驟10。
- 否,執行步驟12。
- 查看操作系統的“/var/log/message”,查看故障出現時間段是否有sssd頻繁重啟或者nscd異常信息(Red Hat操作系統確認sssd信息,SUSE操作系統確認nscd信息)。
sssd重啟樣例
Feb 7 11:38:1610-132-190-105 sssd[pam]: Shutting down
Feb 7 11:38:16 10-132-190-105 sssd[nss]:Shutting down
Feb 7 11:38:16 10-132-190-105 sssd[nss]:Shutting down
Feb 7 11:38:16 10-132-190-105sssd[be[default]]: Shutting down
Feb 7 11:38:16 10-132-190-105 sssd:Starting up
Feb 7 11:38:16 10-132-190-105sssd[be[default]]: Starting up
Feb 7 11:38:16 10-132-190-105 sssd[nss]:Starting up
Feb 7 11:38:16 10-132-190-105 sssd[pam]:Starting up
nscd異常信息樣例
Feb 11 11:44:42 10-120-205-33 nscd: nss_ldap: failed to bind to
LDAP server ldaps://10.120.205.55:21780: Can't contact LDAP server
Feb 11 11:44:43 10-120-205-33 ntpq: nss_ldap: failed to bind to LDAP server
ldaps://10.120.205.55:21780: Can't contact LDAP server
Feb 11 11:44:44 10-120-205-33 ntpq: nss_ldap: failed to bind to LDAP server
ldaps://10.120.205.92:21780: Can't contact LDAP server
- 是,執行步驟11。
- 否,執行步驟12。
- 排查LdapServer節點是否故障,例如業務IP不可達、網絡延時過長等;若故障為階段性,則需在故障時排查,并嘗試執行top命令查看是否存在異常軟件。
收集故障信息
- 在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
- 在“服務”中勾選如下節點信息,單擊“確定”。
- NodeAgent
- Controller
- OS
- 單擊右上角的

設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后10分鐘,單擊“下載”。 - 請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。