ALM-28001 Spark服務不可用(2.x及以前版本)
更新時間 2023-06-09 11:04:10
最近更新時間: 2023-06-09 11:04:10
分享文章
本章節主要介紹告警ALM-28001 Spark服務不可用(2.x及以前版本)。
告警解釋
系統每30秒周期性檢測Spark服務狀態,當檢測到Spark服務不可用時產生該告警。
Spark服務恢復時,告警清除。
告警屬性
| 告警ID | 告警級別 | 可自動清除 |
|---|---|---|
| 28001 | 致命 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| ServiceName | 產生告警的服務名稱。 |
| RoleName | 產生告警的角色名稱。 |
| HostName | 產生告警的主機名。 |
對系統的影響
用戶提交的Spark任務執行失敗。
可能原因
- KrbServer服務異常。
- LdapServer服務異常。
- ZooKeeper服務異常。
- HDFS服務故障。
- Yarn服務故障。
- 對應的Hive服務故障。
處理步驟
檢查Spark依賴的服務是否有服務不可用告警。
-
登錄MRS集群詳情頁面,選擇“告警管理”。
-
在告警列表中,查看是否存在以下告警:
a.ALM-25500 KrbServer服務不可用
b.ALM-25000 LdapServer服務不可用
c.ALM-13000 ZooKeeper服務不可用
d.ALM-14000 HDFS服務不可用
e.ALM-18000 Yarn服務不可用
f.ALM-16004 Hive服務不可用
- 是,執行3。
- 否,執行 收集故障信息。
-
根據對應服務不可用告警幫助提供的故障處理對應告警。[]()[]()告警全部恢復后,等待幾分鐘,檢查本告警是否恢復。
- 是,處理完畢。
- 否,執行 收集故障信息。
收集故障信息。
- 在MRS Manager界面,單擊“系統設置 > 日志導出”。
- 請聯系運維人員,并發送已收集的故障日志信息。
參考信息
無。