ALM-45426 ClickHouse服務在ZooKeeper的數量配額使用率超過閾值
更新時間 2023-06-29 03:56:07
最近更新時間: 2023-06-29 03:56:07
分享文章
本章節主要介紹ALM-45426 ClickHouse服務在ZooKeeper的數量配額使用率超過閾值的告警。
告警解釋
告警模塊按60秒周期檢測ClickHouse服務在ZooKeeper的數量配額使用百分比,當檢測到使用百分比超過閾值(90%),系統產生此告警。
當系統檢測到使用百分比低于閾值,且告警處理完成時,告警恢復。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 45426 | 重要(默認級別) | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群或系統名稱 |
| 服務名 | 產生告警的服務名稱 |
| 角色名 | 產生告警的角色名稱 |
| 主機名 | 產生告警的主機名 |
對系統的影響
ClickHouse在ZooKeeper的數量配額超過閾值后,無法通過FusionInsight Manager對ClickHouse進行集群操作,無法使用ClickHouse服務功能。
可能原因
ClickHouse在使用過程中,如表創建、插入或刪除表數據等操作時,ClickHouse會在ZooKeeper的節點中創建znode,隨著業務量的增加該znode實際數量可能會超過配置的閾值。
處理步驟
檢查ClickHouse在ZooKeeper的znode節點創建數量
登錄ZooKeeper客戶端所在主機節點,執行以下命令登錄ZooKeeper客戶端工具。
切換到客戶端安裝目錄。
例如:cd /opt/client
執行以下命令配置環境變量。
source bigdata_env
執行以下命令進行用戶認證。(普通模式跳過此步驟)
kinit 組件業務用戶
執行以下命令登錄客戶端工具。
zkCli.sh -server ZooKeeper 角色實例所在節點業務IP : ClientPort
- 執行如下命令查看ZooKeeper上ClickHouse使用的配額情況,計算返回的結果中Output stat的count值與Output quota的count值之比是否大于0.9。
listquota /clickhouse
absolute path is /zookeeper/quota/clickhouse
Output quota for /clickhouse count =200000,bytes=1000000000
Output stat for /clickhouse count =2667,bytes=60063
如上,Output stat對應的count為:2667,Output quota的count為:200000。
- 是,執行步驟4。
- 否,等待五分鐘查看告警是否清除,如果還沒有清除請執行步驟5。
- 在FusionInsight Manager首頁,選擇“集群 > 服務 > ClickHouse > 配置 > 全部配置”,搜索“clickhouse.zookeeper.quota.node.count”參數,將該參數的值調整為步驟2中Output stat的count值的2倍。
- 重啟告警信息對應的ClickHouse實例,等待五分鐘,查看告警是否消除。
- 是,處理完畢。
- 否,再次執行步驟4,等待五分鐘,查看告警是否消除,如果還沒有清除請執行步驟5。
收集故障信息
在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
- 在“服務”中勾選待操作集群的“ClickHouse”。
- 單擊右上角的

設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后1小時,單擊“下載”。 - 請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。