告警解釋
告警模塊按60秒周期檢測ClickHouse實例狀態,當檢測到所有ClickHouse實例異常時,系統產生此告警。
當系統檢測到任一ClickHouse實例恢復正常,且告警處理完成時,告警恢復。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 45425 | 緊急 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群或系統名稱 |
| 服務名 | 產生告警的服務名稱 |
| 角色名 | 產生告警的角色名稱 |
| 主機名 | 產生告警的主機名 |
對系統的影響
ClickHouse服務異常,無法通過FusionInsight Manager對ClickHouse進行集群操作,無法使用ClickHouse服務功能。
可能原因
ClickHouse故障實例節點其組件配置目錄下的metrika.xml配置信息和ZooKeeper中對應ClickHouse實例配置不一致。
處理步驟
檢查ClickHouse實例metrika.xml配置是否正常
登錄FusionInsight Manager,選擇“集群 > 服務 > ClickHouse > 實例”,根據告警信息找到狀態異常的ClickHouse實例。
- 是,執行步驟2。
- 否,執行步驟9。
- 登錄ClickHouse服務異常的實例主機節點,并通過ping其他正常ClickHouse實例節點IP的方式進行網絡是否互通驗證。
- 是,執行步驟3。
- 否,聯系網絡管理員修復網絡。
選擇“集群 > 服務 > ClickHouse > 實例”,在“角色”列下面單擊對應異常的實例名稱,選擇“實例配置”,搜索框中搜索“macros.id”,找到當前實例macros.id對應的值。
- 登錄ZooKeeper客戶端所在主機節點,執行以下命令登錄ZooKeeper客戶端工具。
切換到客戶端安裝目錄。
例如:cd /opt/client
執行以下命令配置環境變量。
source bigdata_env
執行以下命令進行用戶認證。(普通模式跳過此步驟)
kinit 組件業務用戶
執行以下命令登錄客戶端工具。
zkCli.sh -server ZooKeeper 角色實例所在節點業務IP : clientPort
- 使用如下命令檢查ClickHouse集群拓撲信息是否能正常獲取到。
get /clickhouse/config/ 步驟3中的macros.id 對應的值 /metrika.xml
- 是,執行步驟6。
- 否,不能正常獲取則執行步驟9。
登錄ClickHouse服務異常的實例主機節點,進入當前ClickHouse實例配置目錄。
cd ${BIGDATA_HOME}/FusionInsight_ClickHouse_ 版本號 / x_x_ClickHouseServer/etc/
cat metrika.xml
- 檢查步驟5中獲取的ZooKeeper上的集群拓撲信息是否與步驟6中組件配置目錄下的metrika.xml是否一致。
- 是,如果確認告警還未恢復則執行步驟9。
- 否,執行步驟8。
- 在FusionInsight Manager首頁,選擇“集群 > 服務 > ClickHouse > 更多 > 同步配置”,等待五分鐘,查看服務狀態是否良好,告警是否恢復。
- 是,處理完畢。
- 否,執行步驟9。
收集故障信息
在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
- 在“服務”中勾選待操作集群的“ClickHouse”。
- 單擊右上角的

設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后1小時,單擊“下載”。 - 請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。