OMS狀態檢查
指標項名稱 :OMS狀態檢查
指標項含義 :OMS狀態檢查包括HA狀態檢查和資源狀態檢查。 HA狀態取值為active、standby和NULL,分別表示主節點、備節點和未知。資源狀態取值為normal、abnormal和NULL,分別表示正常、異常和未知。HA狀態為NULL時,認為不健康;資源狀態為NULL或abnormal時,認為不健康。
詳見下表:OMS狀態說明表
| 名稱 | 說明 |
|---|---|
| HA狀態 | active表示主節點 standby表示備節點 NULL表示未知 |
| 資源狀態 | normal表示所有資源都正常 abnormal表示有異常資源 NULL表示未知 |
恢復指導:
1.登錄主管理節點,執行su - omm切換到omm用戶。執行${CONTROLLER_HOME}/sbin/status-oms.sh查看OMS狀態。
2.如果HA狀態為NULL,可能是系統在重啟,這個一般是中間狀態,HA后續會自動調整為正常狀態。
3.如果資源狀態異常,則說明有Manager的某些組件資源異常, 可具體查看acs、aos、cep、controller、feed_watchdog、fms、guassDB、httpd、iam、ntp、okerberos、oldap、pms、tomcat等組件狀態是否正常。
4.如果Manager組件資源異常,參見下方“Manager組件狀態檢查”進行處理。
Manager組件狀態檢查
指標項名稱 :Manager組件狀態檢查
指標項含義 :Manager組件狀態檢查包括組件資源運行狀態和資源HA狀態。資源運行狀態,取值為Normal、Abnormal等;資源HA狀態,取值為Normal、Exception等。Manager組件包含acs、aos、cep、controller、feed_watchdog、floatip、fms、gaussDB、heartBeatCheck、httpd、iam、ntp、okerberos、oldap、pms、tomcat等。當運行狀態和HA狀態不是Normal時,認為指標不健康。
詳見下表:Manager組件狀態說明表
| 名稱 | 說明 |
|---|---|
| 資源運行狀態 | Normal表示正常運行 Abnormal表示運行異常 Stopped表示停止 Unknown表示狀態未知 Starting表示正在啟動 Stopping表示正在停止 Active_normal表示主正常運行 Standby_normal表示備正常運行 Raising_active表示正在升主 Lowing_standby表示正在降備 No_action表示沒有該動作 Repairing表示正在修復 NULL表示未知 |
| 資源HA狀態 | Normal表示正常 Exception表示故障 Non_steady表示非穩態 Unknown表示未知 NULL表示未知 |
恢復指導:
1.登錄主管理節點,執行su - omm切換到omm用戶。執行${CONTROLLER_HOME}/sbin/status-oms.sh查看OMS狀態。
2.如果floatip、okerberos、oldap等異常,可參見告警ALM-12004、ALM-12005分別進行處理。
3.如果是其他資源異常,建議查看相關異常模塊的日志。
controller資源異常:查看異常節點的/var/log/Bigdata/controller/controller.log。
cep資源異常:查看異常節點的/var/log/Bigdata/omm/oms/cep/cep.log。
aos資源異常:查看異常節點的/var/log/Bigdata/controller/aos/aos.log。
feed_watchdog資源異常:查看異常節點的/var/log/Bigdata/watchdog/watchdog.log。
httpd資源異常:查看異常節點的/var/log/Bigdata/httpd/error_log。
fms資源異常:查看異常節點的/var/log/Bigdata/omm/oms/fms/fms.log。
pms資源異常:查看異常節點的/var/log/Bigdata/omm/oms/pms/pms.log。
iam資源異常:查看異常節點的/var/log/Bigdata/omm/oms/iam/iam.log。
gaussDB資源異常:查看異常節點的/var/log/Bigdata/omm/oms/db/omm_gaussdba.log。
ntp資源異常:查看異常節點的/var/log/Bigdata/omm/oms/ha/scriptlog/ha_ntp.log。
tomcat資源異常:查看異常節點的/var/log/Bigdata/tomcat/catalina.log。
4.如果通過日志無法排除問題,請聯系運維人員處理,并發送已收集的故障日志信息。
OMA運行狀態
指標項名稱 :OMA運行狀態
指標項含義 :檢查OMA的運行狀態,狀態結果包括運行和停止兩種狀態,如果OMA狀態為停止,則認為不健康。
恢復指導:
1.登錄檢查結果不健康的節點,然后執行su - omm切換到omm用戶。
2.執行 ${OMA_PATH}/restart_oma_app ,手工啟動OMA,然后重新檢查。如果檢查結果仍然不健康,則執行3。
3.如果手工啟動OMA無法恢復,建議查看分析OMA日志“/var/log/Bigdata/omm/oma/omm_agent.log”。
如果通過日志無法排除問題,請聯系運維人員處理,并發送已收集的故障日志信息。
各節點與主管理節點之間SSH互信
指標項名稱: 各節點與主管理節點之間SSH互信
指標項含義 :檢查SSH互信是否正常。如果使用omm用戶,在主管理節點可以通過SSH登錄其他節點且不需要輸入密碼,則認為健康;否則,不健康。或者主管理節點SSH可以直接登錄其他節點,但在其他節點無法通過SSH登錄主管理節點,則也認為不健康。
恢復指導:
1.如果該指標項檢查異常,表示各節點與主管理節點之間SSH互信異常。SSH互信異常時,首先檢查“/home/omm”目錄的權限是否為 omm 。非omm的目錄權限可能導致SSH互信異常,建議執行chown omm:wheel修改權限后重新檢查。如果“/home/omm”目錄權限正常,則執行2。
2.SSH互信異常一般會導致Controller和NodeAgent之間心跳異常,進而出現節點故障的告警。
進程運行時間
指標項名稱: NodeAgent運行時間、Controller運行時間和Tomcat運行時間
指標項含義 :檢查NodeAgent、Controller、Tomcat進程的運行時間。如果小于半小時(即1800s),則進程可能重啟過,建議半小時后再檢查。如果多次檢查,進程的運行時間都小于半小時,說進程狀態異常。
恢復指導:
1.登錄檢查結果不健康的節點,執行su - omm切換到omm用戶。
2.根據進程名稱查看進程pid,執行命令:
ps -ef | grep NodeAgent
3.根據pid查看進程啟動時間,執行命令:
ps-p pid -o lstart
4.判斷進程啟動時間是否正常。如果進程一直反復重啟,執行5。
5.查看對應模塊日志,分析重啟原因。
NodeAgent運行時間異常,檢查相關日志 /var/log/Bigdata/nodeagent/agentlog/agent.log 。
Controller運行時間異常,檢查相關日志 /var/log/Bigdata/controller/controller.log 。
Tomcat運行時間異常,檢查相關日志 /var/log/Bigdata/tomcat/web.log 。
6.如果通過日志無法排除問題,請聯系運維人員處理,并發送已收集的故障日志信息。
帳戶及密碼過期檢查
指標項名稱 :帳戶及密碼過期檢查
指標項含義 :該指標項檢查MRS的兩個操作系統用戶omm和 ommdba 。對操作系統用戶,同時檢查帳戶及密碼的過期時間。如果帳戶或密碼有效期小于等于15天,則認為不健康。
恢復指導 :如果帳戶或密碼有效期小于等于15天,建議及時聯系運維人員處理。