Swap使用率
指標項名稱 :Swap使用率
指標項含義 :系統Swap使用率,計算方法:已用Swap大小/總共Swap大小。當前閾值設置為75.0%,如果使用率超過閾值,則認為不健康。
恢復指導 :
1.確認節點Swap使用率。
登錄檢查結果不健康的節點,執行free -m查看swap總量和已使用量,如果swap使用率已超過閾值,則執行2。
2.如果Swap使用率超過閾值,建議對系統進行擴容,如:增加節點。
主機文件句柄使用率
指標項名稱 :主機文件句柄使用率
指標項含義 :系統中文件句柄的使用率,主機文件句柄使用率=已用句柄數/總共句柄數。如果使用率超過閾值,則認為不健康。
恢復指導 :
1.確認主機文件句柄使用率。
登錄檢查結果不健康的節點,執行 cat /proc/sys/fs/file-nr ,輸出結果的第一列和第三列分別表示系統已使用的句柄數和總句柄數,如果使用率超過閾值,則執行2。
2.如果主機文件句柄使用率超過閾值,建議對系統進行排查,具體分析文件句柄的使用情況。
NTP偏移量
指標項名稱 :NTP偏移量
指標項含義 :NTP時間偏差。如果時間偏差超過閾值,則認為不健康。
恢復指導:
1.確認NTP時間偏差。
登錄檢查結果不健康的節點,執行/usr/sbin/ntpq -np查看信息,其中offset列表示時間偏差。如果時間偏差大于閾值,則執行2。
2.如果該指標項異常,則需要檢查時鐘源配置是否正確,請聯系運維人員處理。
平均負載
指標項名稱: 平均負載
指標項含義: 系統平均負載,表示特定時間段內運行隊列中的平均進程數。這里系統平均負載是通過uptime命令中得到的負載值計算得到。計算方法:(1分鐘負載 + 5分鐘負載 + 15分鐘負載)/(3*CPU個數)。當前閾值設置為2,如果超過閾值,則認為不健康。
恢復指導:
1.登錄檢查結果不健康的節點,執行uptime命令,命令輸出的最后三列分別表示1分鐘負載、5分鐘負載和15分鐘負載。根據系統平均負載的計算方法,如果負載超過閾值,則執行2。
2.如果系統平均負載超過閾值,建議對系統進行擴容,如增加節點等。
D狀態進程
指標項名稱 :D狀態進程
指標項含義 :不可中斷的睡眠進程,即D狀態進程。D狀態通常是進程在等待IO,比如磁盤IO,網絡IO等,但是此時IO出現異常。如果系統中出現D狀態進程,則認為不健康。
恢復指導 :如果該指標項異常,系統中會產生對應的告警,建議參見告警ALM-12028進行處理。
硬件狀態
指標項名稱: 硬件狀態
指標項含義 :檢查系統硬件狀態,包括CPU、內存、磁盤、電源、風扇等。該檢查項通過ipmitool sdr elist獲取相關硬件信息。如果相關硬件狀態異常,則認為不健康。
恢復指導:
1.登錄檢查結果不健康的節點。執行ipmitool sdr elist查看系統硬件狀態,命令輸出的最后一列表示對應的硬件狀態。如果提示的狀態在下面的故障描述表中,則任務不健康。
| 模塊 | 故障描述 |
|---|---|
| Processor | IERR Thermal Trip FRB1/BIST failure FRB2/Hang in POST failure FRB3/Processor startup/init failure Configuration Error SM BIOS Uncorrectable CPU-complex Error Disabled Throttled Uncorrectable machine check exception |
| Power Supply | Failure detected Predictive failure Power Supply AC lost AC lost or out-of-range AC out-of-range, but present Config Error: Vendor Mismatch Config Error: Revision Mismatch Config Error: Processor Missing Config Error: Power Supply Rating Mismatch Config Error: Voltage Rating Mismatch Config Error |
| Power Unit | 240VA power down Interlock power down AC lost Soft-power control failure Failure detected Predictive failure |
| Memory | Uncorrectable ECC Parity Memory Scrub Failed Memory Device Disabled Correctable ECC logging limit reached Configuration Error Throttled Critical Overtemperature |
| Drive Slot | Drive Fault Predictive Failure Parity Check In Progress In Critical Array In Failed Array Rebuild In Progress Rebuild Aborted |
| Battery | Low Failed |
2.如果該指標項異常,建議聯系運維人員解決處理。
主機名
指標項名稱: 主機名
指標項含義: 檢查是否設置了主機名。如果沒有設置主機名,則認為不健康。如果該指標項異常,建議正確設置hostname。
恢復指導:
1.登錄檢查結果不健康的節點。
2.執行以下命令修改主機名,使節點主機名與規劃的主機名保持一致:
hostname 主機名 。例如,將主機名改為“Bigdata-OM-01”,請執行命令hostname Bigdata-OM-01。
修改主機名配置文件。
3.執行vi /etc/HOSTNAME命令編輯文件,修改文件內容為“Bigdata-OM-01”,并保存退出。
Umask
指標項名稱: Umask
指標項含義 :檢查omm用戶的umask設置是否正確。如果umask設置不等于0077,則認為不健康。
恢復指導:
1.如果該指標異常,建議將omm用戶的umask設置為0077。登錄檢查結果不健康的節點,執行su - omm切換到omm用戶。
2.執行 vi ${BIGDATA_HOME}/.om_profile ,修改 umask=0077 ,保存并退出。
OMS的HA狀態
指標項名稱 :OMS的HA狀態
指標項含義: 檢查OMS的雙機資源是否正常。OMS雙機資源狀態的詳細信息可使用${CONTROLLER_HOME}/sbin/status-oms.sh查看。如果有模塊狀態異常,認為不健康。
恢復指導:
1.登錄主管理節點,執行su - omm切換到omm用戶,然后執行${CONTROLLER_HOME}/sbin/status-oms.sh查看OMS狀態。
2.如果floatip、okerberos、oldap等異常,可參見告警ALM-12002、ALM-12004、ALM-12005分別進行處理。
3.如果是其他資源異常,建議查看相關異常模塊的日志。
controller資源異常:查看異常節點的/var/log/Bigdata/controller/controller.log。
cep資源異常:查看異常節點的/var/log/Bigdata/omm/oms/cep/cep.log。
aos資源異常:查看異常節點的/var/log/Bigdata/controller/aos/aos.log。
feed_watchdog資源異常:查看異常節點的/var/log/Bigdata/watchdog/watchdog.log。
httpd資源異常:查看異常節點的/var/log/Bigdata/httpd/error_log。
fms資源異常:查看異常節點的/var/log/Bigdata/omm/oms/fms/fms.log。
pms資源異常:查看異常節點的/var/log/Bigdata/omm/oms/pms/pms.log。
iam資源異常:查看異常節點的/var/log/Bigdata/omm/oms/iam/iam.log。
gaussDB資源異常:查看異常節點的/var/log/Bigdata/omm/oms/db/omm_gaussdba.log。
ntp資源異常:查看異常節點的/var/log/Bigdata/omm/oms/ha/scriptlog/ha_ntp.log。
tomcat資源異常:查看異常節點的/var/log/Bigdata/tomcat/catalina.log。
4.如果通過日志無法排除問題,請聯系運維人員處理,并發送已收集的故障日志信息。
安裝目錄及數據目錄檢查
指標項名稱: 安裝目錄及數據目錄檢查
指標項含義 :該指標項首先檢查安裝目錄(默認為“/opt/Bigdata”)所在磁盤分區根目錄下的lost+found目錄。如果該目錄下有omm用戶的文件,則認為異常。節點異常時,會把相關的文件放入到“lost+found”目錄。該檢查主要是針對這類場景,檢查文件是否丟失。然后,對安裝目錄(如:“/opt/Bigdata”)和數據目錄(如:“/srv/BigData”)進行檢查。如果目錄下出現非omm用戶的文件,則認為不健康。
恢復指導:
1.登錄檢查結果不健康的節點,執行su - omm切換到omm用戶。檢查lost+found目錄是否存在omm用戶的文件或文件夾。
如果有omm用戶文件,建議對其進行恢復后重新檢查;如果沒有omm用戶文件,則執行2。
2.分別對安裝目錄和數據目錄進行排查。查看目錄下是否存在非omm用戶是文件或文件夾。如果確認這些文件是手工生成的臨時文件,建議對清理后重新檢查。
CPU使用率
指標項名稱: CPU使用率
指標項含義 :檢查CPU使用率是否超過當前設定的閾值。如果超過閾值,則認為不健康。
恢復指導: 如果該指標項異常,系統中會產生對應的告警,建議參見告警ALM-12016進行處理。
內存使用率
指標項名稱: 內存使用率
指標項含義 :檢查內存使用率是否超過當前設定的閾值。如果超過閾值,則認為不健康。
恢復指導: 如果該指標項異常,系統中會產生對應的告警,建議參見告警ALM-12018進行處理。
主機磁盤使用率
指標項名稱: 主機磁盤使用率
指標項含義 :檢查主機磁盤使用率是否超過當前設定的閾值。如果超過閾值,則認為不健康。
恢復指導: 如果該指標項異常,系統中會產生對應的告警,建議參見告警ALM-12017進行處理。
主機磁盤寫速率
指標項名稱: 主機磁盤寫速率
指標項含義 :檢查主機磁盤寫速率。根據業務場景不同,主機磁盤寫速率大小可能存在差異,所以該指標項只反映具體的數值大小,用戶需根據業務場景具體判斷該指標是否健康。
恢復指導: 用戶根據具體的業務場景,判斷當前磁盤寫速率是否正常。
主機磁盤讀速率
指標項名稱: 主機磁盤讀速率
指標項含義 :檢查主機磁盤讀速率。根據業務場景不同,主機磁盤讀速率大小可能存在差異,所以該指標項只反映具體的數值大小,用戶需根據業務場景具體判斷該指標是否健康。
恢復指導: 用戶根據具體的業務場景,判斷當前磁盤讀速率是否正常。
主機業務平面網絡狀態
指標項名稱: 主機業務平面網絡狀態
指標項含義 :檢查集群主機業務平面網絡連通性。如果出現無法連通的情況,則認為不健康。
恢復指導: 如果是單平面組網,對應需檢查單平面的IP。雙平面組網排查恢復步驟如下:
1.檢查主備管理節點業務平面IP的網絡連通性。
如果網絡異常,執行3。
如果網絡正常,執行2。
2.檢查主管理節點IP到集群內異常節點IP的網絡連通性。
3.如果網絡不通,請聯系運維人員排查網絡問題,以保證滿足業務使用。
主機狀態
指標項名稱: 主機狀態
指標項含義 :檢查主機狀態是否正常。如果節點有故障,則認為不健康。
恢復指導: 如果該指標項異常,建議參見告警ALM-12006進行處理。
檢查告警
指標項名稱: 檢查告警
指標項含義 :檢查主機是否存在未清除的告警。如果存在,則認為不健康。
恢復指導: 如果該指標項異常,建議參見告警進行處理。