告警解釋
系統每30秒周期性檢測執行的HQL成功百分比,HQL成功百分比由一個周期內Hive執行成功的HQL數/Hive執行HQL總數計算得到。該指標可通過“集群 > 待操作的集群名稱 > 服務 > Hive > 實例 > 具體的HiveServer實例 ”查看。執行的HQL成功百分比指標默認提供一個閾值范圍(90%),當檢測到百分比指標低于閾值范圍產生該告警。在該告警的定位信息可查看產生該告警的主機名,該主機IP也是HiveServer節點IP。
用戶可通過“運維 > 告警 > 閾值設置 > 待操作集群的名稱 > Hive > 執行成功的HQL百分比”修改閾值。
當系統在一個檢測周期檢測到該指標高于閾值的110%時,恢復告警。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 16002 | 重要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
| Trigger condition | 系統當前指標取值滿足自定義的告警設置條件。 |
對系統的影響
系統執行業務能力過低,無法正常響應客戶請求。
可能原因
- HQL命令語法錯誤。
- 執行Hive on HBase任務時HBase服務異常。
- 執行Hive on Spark任務時Spark服務異常。
- 依賴的基礎服務HDFS、Yarn、ZooKeeper等異常。
處理步驟
檢查HQL命令是否符合語法
1.在FusionInsight Manager界面選擇“運維 > 告警”,查看告警詳情,獲取產生告警的節點信息。
2.使用Hive客戶端連接到產生該告警的HiveServer節點,查詢Apache提供的HQL語法規范,確認輸入的命令是否正確。詳情請參見//cwiki.apache.org/confluence/display/hive/languagemanual。
- 是,執行步驟4。
- 否,執行步驟3。
說明若想查看執行錯誤語句的用戶,可下載產生該告警的HiveServer節點的HiveServerAudit日志,下載的“開始時間”和“結束時間”分別為告警產生時間的前后10分鐘。打開日志文件查找“Result=FAIL”關鍵字篩選執行錯誤語句的日志信息,再根據日志信息中的“UserName”查看執行錯誤語句的用戶。
3.輸入正確的HQL語句,觀察命令是否正確執行。
- 是,執行步驟12。
- 否,執行步驟4。
檢查HBase服務是否異常
4.與執行HQL命令的用戶確認是否執行的是Hive on HBase任務。
- 是,執行步驟5。
- 否,執行步驟8。
5.在FusionInsight Manager界面選擇“集群 > 待操作集群的名稱 > 服務”,在服務列表查看HBase服務狀態是否正常。
- 是,執行步驟8。
- 否,執行步驟6。
6.選擇“運維 > 告警”,查看告警界面的HBase相關告警,參照對應告警幫助進行處理。
7.輸入正確的HQL語句,觀察命令是否正確執行。
- 是,執行步驟12。
- 否,執行步驟8。
檢查HDFS、Yarn、ZooKeeper等是否正常
8.在FusionInsight Manager首頁,選擇“集群 > 待操作集群的名稱 > 服務”。
9.在服務列表查看HDFS、Yarn、ZooKeeper等服務是否正常。
- 是,執行步驟12。
- 否,執行步驟10。
10.查看告警界面的相關告警,參照對應告警幫助進行處理。
11.輸入正確的HQL語句,觀察命令是否正確執行。
- 是,執行步驟12。
- 否,執行步驟13。
12.等待一分鐘,查看本告警是否清除。
- 是,處理結束。
- 否,執行步驟13。
收集故障信息
13.在FusionInsight Manager首頁,選擇“運維 > 日志 > 下載”。
14.在“服務”中勾選待操作集群的如下節點信息。
- Mapreduce
- Hive
15.單擊右上角的
設置日志收集的“開始時間”和“結束時間”,分別為告警產生時間的前后10分鐘,單擊“下載”。
16.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。