告警解釋
進程健康檢查模塊按5秒周期檢測進程狀態。當進程健康檢查模塊連續三次檢測到進程連接狀態為故障時,產生該告警。
當進程連接正常時,告警恢復。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 12007 | 重要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群或系統名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
對系統的影響
該進程提供的業務不可用。
可能原因
- 實例進程異常。
- 磁盤空間不足。

說明如果同一時間段,存在大量的進程故障告警,則可能存在安裝目錄文件被誤刪除或者權限被修改。
處理步驟
檢查實例進程是否異常
1.打開FusionInsight Manager頁面,選擇“運維 > 告警 > 告警”,單擊此告警所在行的
,單擊主機名查看該告警的主機名稱與服務名稱。
2.在“告警”頁面,查看是否有ALM-12006 節點故障告警產生。
- 是,執行步驟3。
- 否,執行步驟4。
3.按ALM-12006 節點故障提供的步驟處理該告警。
4.以root用戶登錄該告警的主機地址。查看告警角色所在安裝目錄用戶、用戶組、權限等是否正常。正常用戶、用戶組、權限為“omm:ficommon 750”。
例如:NameNode的安裝目錄為“${BIGDATA_HOME}/FusionInsight_Current/1_8_NameNode/etc”。
- 是,執行步驟6。
- 否,執行步驟5。
5.執行如下命令將文件夾權限修改為“750”,并將“用戶:屬組”修改為“omm:ficommon”。
chmod 750 <folder_name>
chown omm:ficommon <folder_name>
6.等待5分鐘,查看告警列表中,“ALM-12007 進程故障”告警是否已清除。
- 是,處理完畢。
- 否,執行步驟7。
檢查磁盤空間是否不足
7.在FusionInsight Manager的告警列表中,查看是否有“ALM-12017 磁盤容量不足”告警產生。
- 是,執行步驟8。
- 否,執行步驟11。
8.按ALM-12017 磁盤容量不足提供的步驟處理該故障。
9.等待5分鐘,查看告警列表中,“ALM-12017 磁盤容量不足”告警是否已清除。
- 是,執行步驟10。
- 否,執行步驟11。
10.等待5分鐘,查看告警列表中,該告警是否已清除。
- 是,處理完畢。
- 否,執行步驟11。
收集故障信息
11.在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
12.根據在步驟1獲取的服務名稱,在“服務”中勾選對應的組件及“NodeAgent”,單擊“確定”。
13.單擊右上角的
設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后10分鐘,單擊“下載”。
14.請聯系運維人員,并發送已收集的故障日志信息。