背景信息:
當云主機異常、網絡異常或Agent停止服務時,都會觸發監控Agent“心跳檢查失敗”的問題,導致云主機無監控數據。本文將為您介紹云主機無監控數據的處理辦法。
操作步驟
- 確認云主機狀態是否為運行中。只有狀態為運行中的云主機,云主機監控Agent才可以正常上報心跳。您可以通過控制臺或OpenAPI查詢云主機狀態信息。
· 云主機狀態為運行中:執行下一步。
· 云主機狀態非運行中:請對云主機執行開啟或重啟操作。
注意若監控異常云主機為GPU(NVIDIA)云主機,需先安裝相關驅動后才可查看GPU監控指標。具體查詢方法如下:
登錄GPU云主機并執行命令 nvidia-smi,
若無次命令返回,請參考NVIDIA驅動安裝指引安裝驅動后再查看監控數據。
若有次命令返回,請參考后續步驟排查異常。
-
確認您所在的資源池支持的監控服務版本。若您所在的資源池屬于監控Agent概覽中,支持安裝監控Agent的地區。
· 屬于支持監控Agent地區:執行下一步。
· 不屬于支持監控Agent地區:請參考Agent管理進行監控Agent安裝。 -
嘗試通過重新安裝監控Agent來恢復其運行狀態。具體操作請參見安裝監控Agent。
· 重裝成功:結束,云主機監控正常。
· 重裝失敗:執行下一步。 -
檢查云主機內安裝的監控Agent是否運行正常。具體查看查詢方法如下:
Linux 操作系統
請登錄云主機執行以下命令:systemctl status telegrafWindows操作系統
請登錄云主機執行以下命令get-Service ctyuntelegraf· 監控Agent狀態為active或running:執行下一步。
· 監控Agent狀態非active或running:請執行重啟監控Agent操作,具體操作可參考如何重啟監控Agent。
-
在主機上curl監控的心跳IP地址,檢查主機的網絡是否正常。登錄云主機后執行以下命令:
curl 169.254.169.254:10063· 網絡正常:執行下一步。
· 網絡異常:請檢查云主機是否設置防火墻或其他服務屏蔽監控服務器地址。 -
收集日志,并提交工單。
· Linux操作系統:/var/log/telegraf/log-of-err
·Windows操作系統:C:/Program Files/ctyuntelegraf/telegraf/telegraf.log