亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

告警解釋

系統每30秒周期性檢測丟失的NodeManager節點，并把丟失的節點數和閾值相比較。“丟失的節點數”指標默認提供一個閾值。當檢測到“丟失的節點數”的值超出閾值時產生該告警。

用戶可通過選擇“集群 > 待操作集群的名稱 > 服務 > Yarn > 配置 > 全部配置”，修改yarn.nodemanager.lost.alarm.threshold的值來配置閾值（修改該參數不用重啟Yarn，就可以生效）。

閾值默認為零，當丟失節點數超過該值時，觸發告警，小于閾值時會自動消除告警。

告警屬性

告警ID	告警級別	是否自動清除
18002	重要	是

告警參數

參數名稱	參數含義
來源	產生告警的集群名稱。
服務名	產生告警的服務名稱。
角色名	產生告警的角色名稱。
主機名	產生告警的主機名。
Lost Host	丟失節點的主機列表。

對系統的影響

丟失的NodeManager節點無法提供Yarn服務。
容器減少，集群性能下降。

可能原因

NodeManager沒有經過退服操作，強制被刪除。
NodeManager所有實例被停止或者進程故障。
NodeManager節點所在主機故障。
NodeManager和ResourceManager之間的網絡斷連或者繁忙。

處理步驟

檢查NodeManager狀態

1.在FusionInsight Manager界面，選擇“運維 > 告警 > 告警”，在告警列表中找到當前告警，單擊下拉箭.png 獲取告警詳細信息，在“附加信息”中獲取丟失狀態的節點。

2.確認處于丟失狀態的節點是否是人為未經過退服操作，直接主動刪除的主機。

是，執行步驟3。
否，執行步驟5。

3.選擇“集群 > 待操作集群的名稱 > 服務 > Yarn”，進入“配置”頁面，選擇“全部配置”，搜索“yarn.nodemanager.lost.alarm.threshold”，修改值為未退服主動刪除的主機個數。設置成功后檢查告警是否清除。

是，處理完畢。
否，執行步驟4。

4.手動清除此告警，后續刪除主機前務必進行退服操作。

5.在FusionInsight Manager界面，選擇“集群> 主機”，查看步驟1中獲取的節點是否健康。

是，執行步驟7。
否，執行步驟6。

6.參考“ALM-12006 節點故障”的操作步驟進行處理，節點恢復正常后，查看本告警是否恢復。

是，處理完畢。
否，執行步驟7。

檢查進程狀態

7.在FusionInsight Manager界面，選擇“集群 > 待操作集群的名稱 > 服務 > Yarn > 實例”，查看是否存在狀態為非“良好”的NodeManager。

是，執行步驟10。
否，執行步驟8。

8.確認此NodeManager實例是否被刪除。

是，執行步驟9。
否，執行步驟11。

9.重啟ResourceManager的主備實例，然后檢查該告警是否恢復。

是，處理完畢。
否，執行步驟13。

檢查實例狀態

10.選擇處于非“良好”狀態的NodeManager實例并重啟該實例。檢查該告警是否恢復。

是，處理完畢。
否，執行步驟11。

檢查網絡狀態

11.登錄管理節點，ping丟失的NodeManager節點的IP地址，檢查網絡是否斷連或繁忙。

是，執行步驟12。
否，執行步驟13。

12.修復網絡故障，然后查看該告警是否恢復。

是，處理完畢。
否，執行步驟13。

收集故障信息

13.在主集群的FusionInsight Manager界面，選擇“運維 > 日志 > 下載”。

14.在“服務”中勾選待操作集群的“Yarn”。

15.單擊右上角的修改集群名稱.png 設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后10分鐘，單擊“下載”。

16.請聯系運維人員，并發送已收集的故障日志信息。

告警清除

此告警修復后，系統會自動清除此告警，無需手工清除。

參考信息

無。

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

智算服務

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

翼MapReduce

翼MapReduce

告警解釋

告警屬性

告警參數

對系統的影響

可能原因

處理步驟

檢查NodeManager狀態

檢查進程狀態

檢查實例狀態

檢查網絡狀態

收集故障信息

告警清除

參考信息

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

活動

智算服務

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

翼MapReduce

翼MapReduce

告警解釋

告警屬性

告警參數

對系統的影響

可能原因

處理步驟

檢查NodeManager狀態

檢查進程狀態

檢查實例狀態

檢查網絡狀態

收集故障信息

告警清除

參考信息