告警解釋

告警模塊每30s檢查一次HBase容災數據的同步狀態，當同步容災數據到備集群失敗時，發送該告警。

當容災數據同步成功后，告警清除。


                說明
                若集群啟用了多實例功能且安裝了多個HBase服務，請根據“定位信息”的“服務名”值來確定具體產生告警的HBase服務。例如HBase1服務不可用，則“定位信息”中顯示服務名=HBase1，處理步驟中的操作對象也應由HBase調整為HBase1。

告警屬性

告警ID	告警級別	是否自動清除
19006	緊急	是

告警參數

參數名稱	參數含義
來源	產生告警的集群名稱。
服務名	產生告警的服務名稱。
角色名	產生告警的角色名稱。
主機名	產生告警的主機名。
Trigger Condition	系統當前指標取值滿足自定義的告警設置條件。

對系統的影響

無法同步集群中HBase的數據到備集群，導致主備集群數據不一致。

可能原因

備集群HBase服務異常。
網絡異常。

處理步驟

觀察告警是否自動修復

1.在主集群的FusionInsight Manager界面，選擇“運維 > 告警 > 告警”。

2.在告警列表中單擊該告警，從完整的告警信息中的“產生時間”處獲得告警的產生時間，查看告警是否持續超過5分鐘。

是，執行步驟4。
否，執行步驟3。

3.等待5分鐘后檢查本告警是否自動恢復。

是，處理完畢。
否，執行步驟4。

檢查備集群HBase服務狀態

4.登錄主集群FusionInsight Manager界面，選擇“運維 > 告警 > 告警”。

5.在告警列表中單擊該告警，從完整的告警信息中的“定位信息”處獲得“主機名”。

6.以omm用戶進入主集群HBase客戶端所在節點。

如果集群采用了安全版本，要進行安全認證，然后使用hbase用戶進入hbase shell界面。

cd /opt/Bigdata/client
source ./bigdata_env
kinit hbaseuser

7.執行 status 'replication', 'source' 命令查看故障節點的容災同步狀態。

節點的容災同步狀態如下：

10-10-10-153:  
SOURCE: PeerID=abc, SizeOfLogQueue=0, ShippedBatches=2, ShippedOps=2, ShippedBytes=320, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=0, TimeStampsOfLastShippedOp=Mon Jul 18 09:53:28 CST 2016, Replication Lag=0, FailedReplicationAttempts=0  
SOURCE: PeerID=abc1, SizeOfLogQueue=0, ShippedBatches=1, ShippedOps=1, ShippedBytes=160, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=16788, TimeStampsOfLastShippedOp=Sat Jul 16 13:19:00 CST 2016, Replication Lag=16788, FailedReplicationAttempts=5
eOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=0, TimeStampsOfLastShippedOp=Mon Jul 18 09:53:28 CST 2016, Replication Lag=0, FailedReplicationAttempts=0  
SOURCE: PeerID=abc1, SizeOfLogQueue=0, ShippedBatches=1, ShippedOps=1, ShippedBytes=160, LogReadInBytes=1636, LogEditsRead=5, LogEditsFiltered=3, SizeOfLogToReplicate=0, TimeForLogToReplicate=0, ShippedHFiles=0, SizeOfHFileRefsQueue=0, AgeOfLastShippedOp=16788, TimeStampsOfLastShippedOp=Sat Jul 16 13:19:00 CST 2016, Replication Lag=16788, FailedReplicationAttempts=5

8.找到“FailedReplicationAttempts”的值大于0的記錄所對應的“PeerID”值。

如上步驟中，故障節點“10-10-10-153”同步數據到“PeerID”為“abc1”的備集群失敗。

9.繼續執行list_peers命令，查找該“PeerID”對應的集群和HBase實例。

PEER_ID CLUSTER_KEY STATE TABLE_CFS
abc1 10.10.10.110,10.10.10.119,10.10.10.133:2181:/hbase2 ENABLED
abc 10.10.10.110,10.10.10.119,10.10.10.133:2181:/hbase ENABLED

如上所示，/hbase2表示數據是同步到備集群的HBase2實例。

10.在備集群FusionInsight Manager的服務列表中，查看通過步驟9獲取的HBase實例運行狀態是否為“良好”。

是，執行步驟14。
否，執行步驟11。

11.在告警列表中，查看是否有“ALM-19000 HBase服務不可用”告警產生。

是，執行步驟12。
否，執行步驟14。

12.參考“ALM-19000 HBase服務不可用”的處理步驟處理該故障。

13.等待幾分鐘后檢查本告警是否恢復。

是，處理完畢。
否，執行步驟14。

檢查主備集群RegionServer之間的網絡連接

14.登錄主集群FusionInsight Manager界面，選擇“運維 > 告警 > 告警”。

15.在告警列表中單擊該告警，從完整的告警信息中“定位信息”處獲得“主機名”。

16.以omm用戶通過步驟15獲取的IP地址登錄故障RegionServer節點。

17.執行ping命令，查看故障RegionServer節點和備集群RegionServer所在主機的網絡連接是否正常。

是，執行步驟20。
否，執行步驟18。

18.聯系網絡管理員恢復網絡。

19.網絡恢復后，在告警列表中，查看本告警是否清除。

是，處理完畢。
否，執行步驟20。

收集故障信息

20.在主備集群的FusionInsight Manager界面，選擇“運維 > 日志 > 下載”。

21.在“服務”中勾選待操作集群的“HBase”。

22.單擊右上角的修改集群名稱.png 設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后10分鐘，單擊“下載”。

23.請聯系運維人員，并發送已收集的故障日志信息。

告警清除

此告警修復后，系統會自動清除此告警，無需手工清除。

參考信息

無。

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

智算服務

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

翼MapReduce

翼MapReduce

告警解釋

告警屬性

告警參數

對系統的影響

可能原因

處理步驟

觀察告警是否自動修復

檢查備集群HBase服務狀態

檢查主備集群RegionServer之間的網絡連接

收集故障信息

告警清除

參考信息

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

活動

智算服務

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

翼MapReduce

翼MapReduce

告警解釋

告警屬性

告警參數

對系統的影響

可能原因

處理步驟

觀察告警是否自動修復

檢查備集群HBase服務狀態

檢查主備集群RegionServer之間的網絡連接

收集故障信息

告警清除

參考信息