ALM-38010 存在單副本的Topic
更新時間 2023-07-14 00:28:05
最近更新時間: 2023-07-14 00:28:05
分享文章
本章節主要介紹ALM-38010 存在單副本的Topic的告警。
告警解釋
系統在Kafka的Controller所在節點上,每60秒周期性檢測各個Topic的副本數,當檢測到某個Topic的副本數為1時,產生該告警。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 38010 | 提示 | 否 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主題名 | 產生告警的Topic名稱列表。 |
對系統的影響
單副本的Topic存在單點故障風險,當副本所在節點異常時,會直接導致Partition沒有leader,影響該Topic上的業務。
可能原因
Topic副本數配置不合理。
處理步驟
檢查Topic副本數配置
在FusionInsight Manager首頁,選擇“運維 > 告警 > 告警”,單擊此告警所在行的
,查看定位信息中上報告警的“主題名”列表。
- 確認發生告警Topic是否需要增加副本。
- 是,執行步驟3。
- 否,執行步驟5。
- 在FusionInsight客戶端,對相關Topic的副本進行重新規劃,在add-replicas-reassignment.json文件中描述該Topic的Partition分布信息,其中json文件中的內容格式為:{"partitions":[{"topic":" topicName ","partition":1,"replicas": [1,2] }],"version":1},并執行如下命令增加副本:
kafka-reassign-partitions.sh --zookeeper {zk_host}:{port} /kafka --reassignment-json-file {manual assignment json file path} --execute
例如:
/opt/Bigdata/client/Kafka/kafka/bin/kafka-reassign-partitions.sh --zookeeper 192.168.0.90:2181,192.168.0.91:2181,192.168.0.92:2181/kafka --reassignment-json-file add-replicas-reassignment.json --execute
- 執行如下命令進行確認任務執行進度:
kafka-reassign-partitions.sh --zookeeper {zk_host}:{port} /kafka --reassignment-json-file {manual assignment json file path} --verify
例如:
/opt/Bigdata/client/Kafka/kafka/bin/kafka-reassign-partitions.sh --zookeeper 192.168.0.90:2181,192.168.0.91:2181,192.168.0.92:2181/kafka --reassignment-json-file add-replicas-reassignment.json --verify
- 確認處理完成或者告警無影響后,可在FusionInsight Manager頁面,手動清除該告警。
- 觀察一段時間,檢查告警是否清除或者告警無影響后,可在FusionInsight Manager頁面,手動清除該告警。
- 是,操作結束。
- 否,執行步驟7。
收集故障信息
在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
- 在“服務”中勾選待操作集群的“Kafka”。
- 單擊右上角的

設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后10分鐘,單擊“下載”。 - 請聯系運維人員,并發送已收集的故障日志信息。
告警清除
確認告警已無影響,可手工清除告警。
參考信息
無。