告警解釋
系統每30秒周期性檢測磁盤使用率,并把磁盤使用率和閾值相比較。磁盤使用率有一個默認閾值,當檢測到磁盤使用率超過閾值時產生該告警。
平滑次數為1,主機磁盤某一分區使用率小于或等于閾值時,告警恢復;平滑次數大于1,主機磁盤某一分區使用率小于或等于閾值的90%時,告警恢復。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 12017 | 重要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群或系統名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
| 設備分區名 | 產生告警的磁盤分區。 |
| Trigger Condition | 系統當前指標取值滿足自定義的告警設置條件。 |
對系統的影響
業務進程不可用。
可能原因
- 告警閾值配置不合理。
- 磁盤配置無法滿足業務需求,磁盤使用率達到上限。
處理步驟
檢查閾值設置是否合理
1.在FusionInsight Manager選擇“運維 > 告警 > 閾值設置 > 待操作集群的名稱 > 主機 > 磁盤 > 磁盤使用率”中查看該告警閾值是否不合理(默認90%為合理值,用戶可以根據自己的實際需求調節)。
- 是,執行步驟2。
- 否,執行步驟4。
2.根據實際服務的使用情況在“運維 > 告警 > 閾值設置 > 待操作集群的名稱 > 主機 > 磁盤 > 磁盤使用率”中單擊“操作”列的“修改”更改告警閾值。如下圖所示。


3.等待2分鐘,查看告警是否消失。
- 是,處理完畢。
- 否,執行步驟4。
檢查磁盤使用率是否達到上限
4.打開FusionInsight Manager頁面,在告警列表中,單擊此告警所在行的
,查看該告警的主機名稱和磁盤分區信息。
5.以root用戶登錄告警所在節點。
6.執行df -lmPT | awk '$2 !="iso9660"' | grep '^/dev/' | awk '{"readlink -m "$1 |getline real }{$1=real; print $0}' | sort -u -k 1,1命令,查看系統磁盤分區的使用信息。并通過步驟4中獲取到的磁盤分區名稱,查看該磁盤是否掛載在如下幾個目錄下:“/”、“/opt”、“/tmp”、“/var”、“/var/log”、“/srv/BigData”(可自定義)。
- 是,說明該磁盤為系統盤,執行步驟10。
- 否,說明該磁盤為非系統盤,執行步驟7。
7.執行df -lmPT | awk '$2 !="iso9660"' | grep '^/dev/' | awk '{"readlink -m "$1 |getline real }{$1=real; print $0}' | sort -u -k 1,1命令,查看系統磁盤分區的使用信息。并通過步驟4中獲取到的磁盤分區名稱,判斷該磁盤屬于哪一個角色。
8.查看磁盤所屬服務。
MRS,是否為HDFS、Yarn、Kafka、Supervisor其中之一。
- 是,進行容量調整。執行步驟9。
- 否,執行步驟12。
9.等待2分鐘,查看告警是否消失。
- 是,處理完畢。
- 否,執行步驟12。
10.執行命令 find / -xdev -size +500M -exec ls -l \ {} ; ,查看該節點上超過500MB的文件,查看該磁盤中,是否有誤寫入的大文件存在。
- 是,執行步驟11。
- 否,執行步驟12。
11.處理該誤寫入的文件,并等待2分鐘,查看告警是否清除。
- 是,執行完畢。
- 否,執行步驟12。
- 聯系系統管理員,對磁盤進行擴容。
- 等待2分鐘,查看告警是否消失。
- 是,處理完畢。
- 否,執行步驟14。
收集故障信息
- 在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
- 在“服務”中勾選“OMS”,單擊“確定”。
- 單擊右上角的

設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后10分鐘,單擊“下載”。 - 請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。