告警解釋
系統每3秒執行一次iostat命令,監控磁盤I/O的系統指標,如果在300s內,svctm大于100ms且大于svctm_average值的1.5倍,則被認為是一個慢周期。若300s內慢周期的數量大于50%,則認為磁盤有問題,系統上報告警。

說明svctm_average的值為當前節點中所有磁盤svctm的均值。
更換磁盤后,告警自動恢復。
當前慢盤故障告警的檢查原理為:
在Linux平臺上判斷IO是否存在問題,輸入命令 iostat -x -t 1 ,觀察下幾個值(如圖所示紅色框中的部分):


- %iowait:該值表示CPU等待IO的時間占整個CPU周期的百分比,如果該值超過50%,或者明顯大于%system、%user以及%idle,這表示IO可能存在問題。
- await:該值表示該磁盤IO等待時間+IO服務時間的值,該值一般不超過20,其它DataNode數據盤可以稍高,但是不超過40。
- svctm:該值表示該磁盤IO服務時間。
- %util:該值表示磁盤繁忙程度,一般該值超過80%表示該磁盤可能處于繁忙狀態。
如果%util大于10,并且svctm大于100,則記錄,如果六十次里面有三十次都滿足該條件,則發送慢盤故障。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 12033 | 重要 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群或系統名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
| 磁盤名 | 產生告警的磁盤名。 |
對系統的影響
磁盤慢盤故障,導致業務性能下降,阻塞業務的處理能力,嚴重時可能會導致服務不可用。
可能原因
磁盤老化或者磁盤壞道。
處理步驟
檢查磁盤狀態
- 在FusionInsight Manager界面,選擇“運維 > 告警 > 告警”。
- 查看該告警的詳細信息,查看定位信息中“主機名”字段和“磁盤名”字段的值,獲取該告警產生的故障磁盤信息。
- 確認上報告警的節點是否為虛擬化環境。
- 是,執行步驟4。
- 否,執行步驟7。
- 請檢查虛擬化環境提供的存儲性能是否滿足硬件要求,檢查完畢之后執行步驟5。
- 以root用戶登錄告警節點,執行df -h命令,查看輸出內容是否包含“磁盤名”字段的值。
- 是,執行步驟7。
- 否,執行步驟6。
- 執行lsblk命令,是否可以查到“磁盤名”字段值與磁盤設備的映射關系。

- 是,執行步驟7。.
- 否,執行步驟22。
- 以root用戶登錄上報告警的節點,執行 lsscsi | grep"/dev/sd[x]" 命令查看磁盤的設備信息,判斷磁盤是否建立了RAID。
說明其中 /dev/sd[x] 為步驟2中獲取到的上報告警的磁盤名稱。
例如執行:
lsscsi| grep "/dev/sda"
如果命令執行結果第三列顯示ATA、SATA或者SAS,說明磁盤沒有建立RAID;顯示其他信息,則該磁盤可能建立了RAID。
是,執行步驟12。
否,執行步驟8。
- 執行 smartctl -i /dev/sd[x] 命令檢查硬件是否支持smart。
例如執行:
smartctl-i /dev/sda
如果命令執行結果中包含“SMART support is: Enabled”,表示磁盤支持smart;執行結果中包含“Device does not support SMART”或者其他,表示磁盤不支持smart。
- 是,執行步驟9。
- 否,執行步驟17。
- 執行 smartctl -H --all /dev/sd[x] 命令查看smart的基本信息,判斷磁盤是否正常。
例如執行:
smartctl-H --all /dev/sda
查看命令執行結果的“SMART overall-health self-assessment test result”內容,如果是“FAILED”,表示磁盤故障,需要更換;如果為“PASSED”,需要進一步看“Reallocated_Sector_Ct”或者“Elements in grown defect list”項的計數,如果大于100,則認為磁盤故障,需要更換。
- 是,執行步驟10。
- 否,執行步驟18。
- 執行 smartctl -l error -H /dev/sd[x] 命令查看磁盤的GLIST列表,進一步繼續判斷磁盤是否正常。
例如執行:
smartctl-l error -H /dev/sda
查看命令執行結果的“Command/Featrue_name”列,如果出現“READ SECTOR(S)”或者“WRITE SECTOR(S)”表示磁盤有壞道;如果出現其他錯誤,表示磁盤電路板有問題。這兩種錯誤均表示磁盤不正常,需要更換。
如果顯示“No Errors Logged”,則表示沒有錯誤日志,則可以觸發磁盤smart自檢。
- 是,執行步驟11。
- 否,執行步驟18。
- 執行 smartctl -t long /dev/sd[x] 命令觸發磁盤smart自檢。命令執行后,會提示自檢完成的時間,在等待自檢完成后,重新執行步驟9和步驟10,檢查磁盤是否正常。
例如執行:
smartctl-t long /dev/sda
- 是,執行步驟17。
- 否,執行步驟18。
- 執行 smartctl -d [sat|scsi]+megaraid,[DID] -H --all /dev/sd[x] 命令檢查硬件是否支持smart。
說明
[sat|scsi]表示磁盤類型,需要嘗試以上兩種類型。
[DID]表示槽位信息,需要嘗試0~15。
例如依次執行:
smartctl-d sat+megaraid,0 -H --all /dev/sda
smartctl-d sat+megaraid,1 -H --all /dev/sda
smartctl-d sat+megaraid,2 -H --all /dev/sda
依次嘗試不同磁盤類型和槽位信息的命令組合,如果執行結果中顯示“SMART support is: Enabled”,表示磁盤支持smart,記錄命令執行成功時磁盤類型和槽位信息組合參數;如果嘗試完以上所有的命令組合,執行結果都未顯示“SMART support is: Enabled”,表示磁盤不支持smart。
- 是,執行步驟13。
- 否,執行步驟16。
- 執行步驟12中記錄的 smartctl -d [sat|scsi]+megaraid,[DID] -H --all /dev/sd[x] 命令查看smart的基本信息,判斷磁盤是否正常。
例如執行:
smartctl -d sat+megaraid,2 -H --all /dev/sda
查看命令執行結果的“SMART overall-health self-assessment test result”內容,如果是“FAILED”,表示磁盤故障,需要更換;如果為“PASSED”,需要進一步看“Reallocated_Sector_Ct”或者“Elements in grown defect list”項的計數,如果大于100,則認為磁盤故障,需要更換。
- 是,執行步驟14。
- 否,執行步驟18。
- 執行 smartctl -d [sat|scsi]+megaraid,[DID] -l error -H /dev/sd[x] 命令查看硬盤的GLIST列表,進一步判斷硬盤是否正常。
例如執行:
smartctl -d sat+megaraid,2 -l error -H /dev/sda
查看命令執行結果的“Command/Featrue_name”列,如果出現“READ SECTOR(S)”或者“WRITE SECTOR(S)”表示磁盤有壞道;如果出現其他錯誤,表示磁盤電路板有問題。這兩種錯誤均表示磁盤不正常,需要更換。
如果顯示“No Errors Logged”,則表示沒有錯誤日志,則可以觸發磁盤smart自檢。
- 是,執行步驟15。
- 否,執行步驟18。
- 執行 smartctl -d [sat|scsi]+megaraid,[DID] -t long /dev/sd[x] 命令觸發磁盤smart自檢。命令執行后,會提示自檢完成的時間,在等待自檢完成后,重新執行步驟13和步驟14,檢查磁盤是否正常。
例如執行:
smartctl -d sat+megaraid,2 -t long /dev/sda
- 是,執行步驟17。
- 否,執行步驟18。
- 磁盤不支持smart,通常是因為配置的RAID卡不支持,此時需要使用對應RAID卡廠商的檢查工具進行處理,然后執行步驟17。
例如LSI一般是MegaCLI工具。
- 在FusionInsight Manager界面,選擇“運維 > 告警 > 告警”,單擊該告警操作列的
“清除”,并繼續觀察該告警,查看同一塊磁盤的告警是否會繼續上報。
如果當前磁盤出現三次以上該告警,建議用戶更換磁盤。
- 是,執行步驟18。
- 否,操作結束。
更換磁盤
- 在FusionInsight Manager界面,選擇“運維 > 告警 > 告警”。
- 查看該告警的詳細信息,查看定位信息中對應的“主機名”字段和“磁盤名”字段的值,獲取該告警上報的故障磁盤信息。
- 更換硬盤。
- 檢查告警是否清除。
- 是,操作結束。
- 否,執行步驟22。
收集故障信息
- 在FusionInsight Manager界面,選擇“運維 > 日志 > 下載”。
- 在“服務”中勾選“OMS”,單擊“確定”。
- 單擊右上角的

設置日志收集的“開始時間”和“結束時間”分別為告警產生時間的前后10分鐘,單擊“下載”。 - 請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。