告警解釋
系統每60秒周期(qi)性檢(jian)測DataNode節點上的磁(ci)盤狀況,當檢(jian)測到有磁(ci)盤出現故障時(shi)產生該(gai)告警(jing)。
當DataNode上故障磁盤都恢(hui)復(fu)正常后,手(shou)動清除(chu)該告警(jing),并重啟該DataNode。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 14027 | 重要 | 否 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
| Failed Volumes | 故障的磁盤列表。 |
對系統的影響
上(shang)報DataNode磁盤故(gu)障告警時,表(biao)示(shi)該DataNode節點上(shang)存(cun)在(zai)故(gu)障的磁盤分區,可能會導(dao)致(zhi)已寫入的文件丟(diu)失。
可能原因
- 硬盤故障。
- 磁盤權限設置不正確。
處理步驟
查看是否存在磁盤告警
1.在FusionInsight Manager首頁,選擇“運維 > 告警 > 告警”查看是否存在告警“ALM-12014 設備分區丟失”或“ALM-12033 慢盤故障”。
- 是,執行步驟2。
- 否,執行步驟4。
2.參考“ALM-12014 設備分區丟失”或“ALM-12033 慢盤故障”告(gao)警進行處(chu)理,查(cha)看(kan)對應告(gao)警是否清除。
- 是,執行步驟3。
- 否,執行步驟4。
3.等待5分(fen)鐘,檢查該告警是否恢復。
- 是,處理完畢。
- 否,執行步驟4。
修改磁盤權限
4.在“運維 > 告(gao)警(jing)(jing)(jing) > 告(gao)警(jing)(jing)(jing)”頁面,查看該(gai)告(gao)警(jing)(jing)(jing)的(de)“定(ding)位(wei)信(xin)息(xi)(xi)”和“附加(jia)信(xin)息(xi)(xi)”,獲取(qu)該(gai)告(gao)警(jing)(jing)(jing)上報(bao)的(de)故障(zhang)磁盤位(wei)置信(xin)息(xi)(xi)。
5.以root用戶登錄上報告警(jing)的節點,進入故障磁盤(pan)所在(zai)目錄,使用ll命令查看該故障磁盤(pan)的權(quan)限是(shi)否711,用戶是(shi)否為(wei) omm 。
- 是,執行步驟8。
- 否,執行步驟6。
6.修改(gai)故障磁(ci)盤權限,如故障磁(ci)盤為(wei)data1,則執行以(yi)下命令:
chown omm:wheel data1
chmod 711 data1
7.在Manager告警列表中,單擊該告警“操作”列下(xia)面的(de)“清(qing)除(chu)”,手動清(qing)除(chu)告警。然后選(xuan)擇(ze)“集(ji)群 > 服(fu)務 > HDFS > 實例”勾(gou)選(xuan)該DataNode,選(xuan)擇(ze)“更多 > 重啟實例”,等(deng)待5分(fen)鐘,查看是(shi)否(fou)有新的(de)告警上報。
- 否,處理完畢。
- 是,執行步驟8。
收集故障信息
8.在FusionInsight Manager首(shou)頁,選擇“運維 > 日志 > 下載”。
9.在“服務”中勾選待操(cao)作集(ji)群的“HDFS”和“OMS”。
10.單擊右上角的
設置日志收(shou)集的“開始時(shi)間(jian)”和“結束時(shi)間(jian)”分別為告警產生時(shi)間(jian)的前后20分鐘,單擊“下(xia)載”。
11.請聯系運維人員(yuan),并發送已收集的故障(zhang)日志信息(xi)。
告警清除
此(ci)告警修復后,系統(tong)不會(hui)自動清除此(ci)告警,需(xu)手工(gong)清除。
參考信息
無。