告警解釋
Flume Agent監控模塊對Flume Agent狀態進行監控,當Flume Agent進程故障(每5秒檢測一次)或Flume Agent啟動失敗時(即時上報告警),系統產生此告警。
當檢測到Flume Agent進程故障恢復,Flume Agent啟動成功,且告警處理完成時,告警恢復。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 24001 | 重要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| AgentId | 產生告警的Agent ID。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
對系統的影響
產生告警的Flume Agent實例無法正常啟動,定義在該實例下的數據傳輸任務暫時中斷,對于實時數據傳輸,會丟失實時數據。
可能原因
- JAVA_HOME目錄不存在或JAVA權限異常。
- Flume Agent目錄權限異常。
- Flume Agent啟動失敗。
處理步驟
檢查JAVA_HOME目錄是否存在或JAVA權限是否正確
1.以root用戶登錄故障節點IP所在主機。
2.執行以下命令獲取發生告警的Flume客戶端安裝目錄。(AgentId可以在告警的“定位信息”中獲取)
ps -ef|grep AgentId | grep -v grep | awk -F 'conf-file ' '{print $2}' | awk -F 'fusioninsight' '{print $1}'
3.使用“su - Flume安裝用戶”命令切換到Flume安裝用戶,執行cd **Flume 客戶端安裝目錄 /fusioninsight-flume-1.9.0/conf/ 命令,進入Flume的配置目錄。
4.執行cat ENV_VARS | grep JAVA_HOME命令。
5.檢查JAVA_HOME目錄是否存在,若步驟4執行結果返回不為空,且 ll $JAVA_HOME/ 不為空,則JAVA_HOME目錄存在。
- 是,執行步驟7。
- 否,執行步驟6。
6.指定正確的JAVA_HOME目錄。
7.執行$JAVA_HOME/bin/java -version命令檢查Flume Agent運行用戶是否有JAVA可執行權限,若可以查到java版本,這說明JAVA權限滿足,否則不滿足。
- 是,執行步驟9。
- 否,執行步驟8。
說明JAVA_HOME為安裝Flume客戶端時export導出的環境變量,也可以進入到Flume 客戶端安裝目錄 /fusioninsight-flume-1.9.0/conf目錄下,執行cat ENV_VARS | grep JAVA_HOME命令來查看變量的值。
8.執行chmod 750 $JAVA_HOME/bin/java命令賦予Flume Agent運行用戶JAVA可執行權限。
檢查Flume Agent的目錄權限
9.以root用戶登錄故障節點IP所在主機。
10.執行以下命令,進入Flume Agent的安裝目錄。
cd Flume 客戶端安裝目錄/fusioninsight-flume-1.9.0/conf/
11.執行ls -al * -R命令,檢查所有文件的所有者是否均是Flume Agent運行用戶。
- 是,執行步驟12。
- 否,使用chown命令修改文件所有者為Flume Agent運行用戶。
檢查Flume Agent配置
12.執行cat properties.properties | grep spooldir以及cat properties.properties | grep TAILDIR命令,確認Flume Source是否是spooldir類型或TAILDIR類型,若任意一個命令有返回值,則為spooldir類型或TAILDIR類型。
- 是,執行步驟13。
- 否,執行步驟17。
13.查看數據監控目錄是否存在。
- 是,執行步驟15。
- 否,執行步驟14。
說明查看spooldir監控目錄,執行命令:cat properties.properties | grep spoolDir
查看TAILDIR監控目錄,執行命令:cat properties.properties | grep parentDir
14.指定服務器上用戶自定義已經存在的數據監控目錄。
15.查看Flume Agent運行用戶對步驟13所指定的監控目錄是否有可讀可寫可執行權限。
- 是,執行步驟17。
- 否,執行步驟16。
說明使用Flume運行用戶進入監控目錄,若可以創建文件,這說明Flume運行用戶是否對該監控目錄具有可讀可寫可執行權限。
16.執行“chmod 777 Flume 監控目錄 ”命令賦予Flume Agent運行用戶對步驟13監控目錄的可讀可寫可執行權限。
17.確認Flume Sink對接組件是否處于安全模式。
- 是,執行步驟18。
- 否,執行步驟23。
說明若用戶業務配置文件properties.properties的sink為hdfs sink、hbase sink,當配置文件中包含有keytab時,則Flume Sink對接組件處于安全模式。
若用戶業務配置文件properties.properties的sink為kafka sink,當配置參數*.security.protocol的值為SASL_PLAINTEXT或為SASL_SSL時,則Flume Sink對接的Kafka處于安全模式。
18.使用“ll ketab 路徑命令 ”查看配置文件“*.kerberosKeytab”參數所指的keytab認證路徑是否存在。
- 是,執行步驟20。
- 否,執行步驟19。
說明ketab路徑查看方式:cat properties.properties | grep keytab
19.將步驟18中kerberosKeytab參數的值指定為用戶自定的keytab路徑,執行步驟21。
20.執行步驟18查看Flume Agent運行用戶是否有訪問keytab認證文件的權限,若返回為keytab路徑,則表示有權限,否則無權限。
- 是,執行步驟22。
- 否,執行步驟21。
21.執行“chmod 755 ketab 文件 ”賦予步驟19中所指定的keytab文件的可讀權限, 并重啟Flume進程。
22.查看告警列表中該告警是否已清除。
- 是,處理完畢。
- 否,執行步驟23。
收集故障信息
23.在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
24.在“服務”框中勾選待操作集群的“Flume”。
25.單擊右上角的
設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后1小時,單擊“下載”。
26.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。