告警解釋
系統每30秒周期性檢測Background線程使用率情況,默認閾值為90%。如果Hive使用的background線程池使用率超過閾值,則發出告警。
說明
MRS 3.X支持Hive多實例,若集群啟用了多實例功能且安裝了多個Hive服務,請根據“定位信息”的“服務名”值來確定具體產生告警的Hive服務。例如Hive1服務不可用,則“定位信息”中顯示服務名=Hive1,處理步驟中的操作對象也應由Hive調整為Hive1。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 16003 | 重要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
| Trigger condition | 系統當前指標取值滿足自定義的告警設置條件。 |
對系統的影響
后臺Background線程數過多,導致新提交的任務無法及時運行。
可能原因
Hive后臺的background線程池使用率過大。
- HiveServer后臺的background線程池執行的任務過多。
- HiveServer后臺的background線程池的容量過小。
處理步驟
檢查HiveServer background線程池執行任務數量
1.在FusionInsight Manager首頁,選擇“集群 > 待操作集群的名稱 > 服務 > Hive > 具體的HiveServer實例 ”,找到“Background線程數”與“Background線程使用率”監控信息。
2.在Background線程數監控中,線程數目最近半小時時間內是否有異常偏高(默認隊列數值為100,偏高數值>=90)。
- 是,執行步驟3。
- 否,執行步驟5。
3.調整提交到background線程池的任務數(比如,取消一些后臺性能低,耗時長的任務)。
4.“Background線程數”和“Background線程數使用率”是否下降。
- 是,執行步驟7。
- 否,執行步驟5。
檢查HiveServer background線程池容量
5.在FusionInsight Manager首頁,選擇“集群 > 待操作集群的名稱 > 服務 > Hive > 具體的HiveServer實例 ”,找到“Background線程數”與“Background線程使用率”監控信息。
6.查看“${BIGDATA_HOME}/FusionInsight_HD_8.1.0.1/1_23_HiveServer/etc/hive-site.xml”文件中“hive.server2.async.exec.threads”數量,適當增大該數值(如:增大原數值的20%)。
7.保存更新配置。
8.查看本告警是否恢復。
- 是,操作結束。
- 否,執行步驟9。
收集故障信息
9.在FusionInsight Manager首頁,選擇“運維 > 日志 > 下載”。
10.在“服務”中勾選待操作集群的“Hive”。
11.單擊右上角的
設置日志收集的“開始時間”和“結束時間”,分別為告警產生時間的前后10分鐘,單擊“下載”。
12.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。