告警解釋
系統每一個小時檢查一次主OMS節點和其他Agent節點間的互信是否正常,如果存在互信失效的節點,則發送告警。待客戶修復改問題,該告警會自動清除。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 12066 | 重要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群或系統名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
對系統的影響
可能會導致管理面的一些操作異常。
可能原因
- /etc/ssh/sshd_config配置文件被破壞。
- omm密碼過期。
處理步驟
查看/etc/ssh/sshd_config配置文件狀態
1.打開FusionInsight Manager頁面,在告警列表中,單擊此告警所在行的
,查看告警詳情中涉及的主機列表。
2.以omm用戶登錄主OMS管理節點。
3.依次在告警詳情中的節點執行ssh命令:ssh host2 (host2為告警詳情中OMS節點之外的其它節點),看是否連接失敗。
- 是,執行步驟4。
- 否,執行步驟6。
4.打開host2主機上的“/etc/ssh/sshd_config”配置文件,查看另外節點是否配置在AllowUsers 、DenyUsers等白名單或者黑名單中。
- 是,執行步驟5。
- 否,聯系OS專家處理。
5.修改白名單或者黑名單設置,保證omm用戶在白名單中或者不在黑名單中。然后持續一段時間觀察告警是否清除。
- 是,操作結束。
- 否,執行步驟6。
查看omm密碼狀態
6.查看ssh命令的交互信息。
- 要求輸入omm用戶的密碼(Password:),執行步驟7。
- 要求輸入密碼短語(Enter passphrase for key '/home/omm/.ssh/id_rsa':),執行步驟9。
7.排查OMS節點和host2節點omm用戶的信任清單(/home/omm/.ssh/authorized_keys),查看是否包含對端主機omm用戶的公鑰文件(/home/omm/.ssh/id_rsa.pub)。
- 是,聯系OS專家處理。
- 否,把對端主機omm用戶的公鑰添加到本機的信任清單中。
8.把對端主機omm用戶的公鑰添加到本機的信任清單中,然后依次在告警詳情中的節點執行ssh命令:ssh host2 (host2為告警詳情中OMS節點之外的其它節點),看是否連接失敗。
- 是,執行步驟9。
- 否,持續一段時間觀察告警是否清除,如果清除則操作結束,如果未清除請執行步驟9。
收集故障信息
9.在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
10.在“服務”中勾選“Controller”,單擊“確定”。
11.單擊右上角的
設置日志收集的時間范圍,一般為告警產生時間的前后10分鐘,單擊“下載”。
12.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
節點互信異常處理方法如下:
須知
- 本此操作需使用omm用戶執行。
- 如果節點間網絡不通,請先解決網絡不通的問題,可以檢查兩個節點是否通一個安全組,是否有設置hosts.deny、hosts.allow 等。
1.在兩端節點執行ssh-add -l 確認是否有identities信息。


- 是,執行4。
- 否,執行2。
2.如果沒有identities信息,執行ps -ef|grep ssh-agent找到ssh-agent進程,并停止該進程并等待該進程自動重啟。


3.執行ssh-add -l 查看是否已經添加identities信息,如果已經添加手動ssh確認是否互信正常。


4.如果有identities信息,需要確認“/home/omm/.ssh/authorized_keys”中是否有對端節點“/home/omm/.ssh/id_rsa.pub”文件中的信息,如果沒有手動添加。
5.檢查“/home/omm/.ssh”目錄下的文件權限是否被修改。
6.排查如下日志文件“/var/log/Bigdata/nodeagent/scriptlog/ssh-agent-monitor.log”。
7.如果用戶把omm的“/home”目錄刪除了,請聯系MRS支撐人員修復。