告警解釋
告警模塊按60秒周期檢測Yarn隊列資源,當隊列可用資源或隊列AM(ApplicationMaster)可用資源不足時,產生該告警。
當可用資源充足時,該告警自動消除。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 18022 | 次要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群名稱。 |
| 隊列名 | 產生告警的隊列名。 |
| 隊列指標名 | 產生告警的隊列指標名。 |
| Trigger Condition | 系統當前指標取值滿足自定義的告警設置條件。 |
對系統的影響
- 應用任務結束時間變長。
- 新應用提交后長時間無法運行。
可能原因
- NodeManager節點資源過小。
- 隊列最大資源容量設置過小。
- AM最大資源百分比設置過小。
處理步驟
檢查告警詳情
1.在FusionInsight Manager界面,選擇“運維 > 告警 > 告警”,彈出告警頁面。
2.查看“Yarn隊列資源不足”告警詳情中的“定位信息”,查看“定位信息”是否為“隊列名=root;隊列指標名=Memory”或“隊列名=root;隊列指標名=vCores”。
- 是,執行步驟3。
- 否,執行步驟4。
3.出現該定位信息表示Yarn集群內存或CPU不足,登錄NodeManager節點,分別使用命令free -g和 cat /proc/cpuinfo ,查詢節點可用內存和可用CPU,據此在FusionInsight Manager界面增大Yarn NodeManager的資源參數“yarn.nodemanager.resource.memory-mb”和“yarn.nodemanager.resource.cpu-vcores”的值,然后重啟NodeManager實例。查看該告警是否消除。
- 是,處理完畢。
- 否,執行步驟4。
4.查看“定位信息”為“隊列名=<租戶隊列名>;隊列指標名=Memory”或“隊列名=<租戶隊列名>;隊列指標名=vCores”,然后查看“附加信息”是否包含“available Memory =”或“available vCores =”。
- 是,執行步驟5。
- 否,執行步驟7。
5.出現該附加信息表示該租戶隊列內存或者CPU不足,選擇“租戶資源 > 動態資源計劃 > 資源分布策略”,調大“最大資源容量”的值,查看該告警是否消除。
- 是,處理完畢。
- 否,執行步驟6。
6.選擇“集群 > 待操作集群的名稱 > 服務 > Yarn >配置 > 全部配置”,輸入搜索關鍵字“threshold”,單擊“ResourceManager”,調整如下參數閾值:
如果“附加信息”中包含“available Memory =”,調整“yarn.queue.memory.alarm.threshold”的閾值使其小于“附加信息”中的“available Memory =”的值。
如果“附加信息”中包含“available vCores =”,調整“yarn.queue.vcore.alarm.threshold”的閾值使其小于“附加信息”中的“available vCores =”的值。
等待5分鐘,查看該告警是否消除。
- 是,處理完畢。
- 否,執行步驟9。
7.查看“附加信息”包含“available AmMemory =”或“available AmvCores =”,表示該租戶隊列的ApplicationMaster內存和CPU不足,選擇“租戶資源 > 動態資源計劃 > 隊列配置”,增大“AM最大資源百分比”,查看該告警是否消除。
- 是,處理完畢。
- 否,執行步驟8。
8.選擇“集群 > 待操作集群的名稱 >服務 > Yarn > 配置 > 全部配置”,輸入搜索關鍵字“threshold”,單擊“ResourceManager”:調整如下參數閾值:
如果“附加信息”包含“available AmMemory =”,調整“yarn.am.memory.alarm.threshold”的閾值使其小于“附加信息”中的“available AmMemory =”的值。
如果“附加信息”包含“available AmvCores =”,調整“yarn.am.vcore.alarm.threshold”的閾值使其小于“附加信息”中的“available AmvCores =”的值。
等待5分鐘,查看該告警是否消除。
- 是,處理完畢。
- 否,執行步驟9。
收集故障信息
9.在主集群的FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
10.在“服務”中勾選待操作集群的“Yarn”。
11.單擊右上角的
設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后10分鐘,單擊“下載”。
12.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。