告警解釋
告警模塊對Flume Server的連接端口狀態進行監控。當Flume Client連接到Flume Server的某個端口,Client端連續3分鐘未與Server端連接時,系統產生此告警。
當Flume Server收到Flume Client連接消息,告警恢復。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 24003 | 重要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群名稱。 |
| 客戶端IP | Flume客戶端IP地址。 |
| 客戶端名稱 | Flume客戶端的Agent名稱。 |
| sink名稱 | Flume Agent的sink名稱。 |
對系統的影響
產生告警的Flume Client無法與Flume Server端進行通信,Flume Client端的數據無法傳輸到Flume Server端。
可能原因
- Flume Client端與Flume Server端網絡故障。
- Flume Client端進程故障。
- Flume Client端配置錯誤。
處理步驟
檢查Flume Client與Flume Server的網絡狀況
1.以root用戶登錄到告警定位參數中描述的Flume ClientIP所在主機。
2.執行ping Flume Server IP地址命令,檢查Flume Client到Flume Server的網絡是否正常。
- 是,執行步驟3。
- 否,執行步驟11。
檢查Flume Client端進程故障
3.以root用戶登錄到告警定位參數中描述的Flume ClientIP所在主機。
4.執行ps -ef|grep flume |grep client命令,查看是否存在Flume Client進程。
- 是,執行步驟5。
- 否,執行步驟11。
檢查Flume Client端的配置
5.以root用戶登錄到告警定位參數中描述的Flume ClientIP所在主機。
6.執行cd Flume 客戶端安裝目錄 /fusioninsight-flume-1.9.0/conf/ 命令,進入Flume的配置目錄。
7.執行cat properties.properties命令,查看當前的Flume Client配置文件。
8.根據Flume Agent的配置說明檢查“properties.properties”的配置是否有誤。
- 是,執行步驟9。
- 否,執行步驟11。
9.修改“properties.properties”配置文件。
查看告警是否已清除
10.查看告警列表中,該告警是否已清除。
- 是,處理完畢。
- 否,執行步驟11。
收集故障信息
11.在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
12.在“服務”框中勾選待操作集群的“Flume”。
13.單擊右上角的
設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后1小時,單擊“下載”。
14.使用傳輸工具,收集Flume Client端“/var/log/Bigdata/flume-client”下的日志。
15.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。