彈性云主機

事件名稱	事件ID	事件級別	事件說明	處理建議	事件影響
刪除虛擬機	deleteServer	重要	刪除云服務器。包括： 1. 在管理控制臺進行刪除操作。 2. 通過API接口下發刪除指令。	確認刪除操作是否為主動執行。	業務中斷。
重啟虛擬機	rebootServer	次要	云服務器重啟。包括： 1. 在管理控制臺進行重啟操作。 2. 通過API接口下發重啟指令。	1. 確認操作是否為主動執行。 2.?業務應用做成高可用。 3. 云主機開機后，確認業務是否自動恢復。	業務中斷。
關閉虛擬機	stopServer	次要	云服務器關機。包括： 1. 在管理控制臺進行關機操作。 2. 通過API接口下發關機指令。	1. 確認操作是否為主動執行。 2. 業務應用做成高可用。 3. 云主機開機后，確認業務是否自動恢復。	業務中斷。
刪除網卡	deleteNic	重要	云服務器刪除網卡。包括： 1. 在管理控制臺刪除網卡。 2. 通過API接口下發刪除網卡指令。	1. 確認操作是否為主動執行。 2. 業務應用做成高可用。 3. 刪除網卡后，確認業務是否自動恢復。	網卡被刪除，存在業務中斷的可能。
變更規格	resizeServer	次要	云服務器規格變更。包括： 1. 在管理控制臺進行變更規格。 2. 通過API接口下發變更規格指令。	1. 確認操作是否為主動執行。 2. 業務應用做成高可用。 3. 變更規格后，確認業務是否自動恢復。	業務中斷。
因硬件故障觸發重啟	startAutoRecovery	重要	彈性云主機所在的主機出現故障時，系統會自動將彈性云主機遷移至正常的物理機，遷移過程中系統會自動重啟云主機。	等待恢復成功，觀察業務是否受到影響。	業務存在中斷的可能。
因硬件故障重啟已完成	endAutoRecovery	重要	當自動遷移完成后，彈性云主機已恢復正常。	當收到“恢復成功”時，云服務器已正常工作，可繼續使用。	業務恢復正常。
恢復超時（后臺處理中）	faultAutoRecovery	重要	遷移彈性云主機至正常的物理機操作超時。	遷移業務至其他云服務器。	業務中斷。
開機失敗	faultPowerOn	重要	云主機開機失敗。	重試開機，若仍開機失敗，聯系運維人員處理。	云服務器無法開機。
GPU鏈路故障	GPULinkFault	緊急	彈性云主機所在的主機上GPU卡故障。包括： 1. GPU卡故障。 2. GPU卡故障恢復中。	業務應用做成高可用。GPU卡故障恢復后，確認業務是否自動恢復。	業務中斷。
主機進程異常導致虛擬機故障	VMFaultsByHostProcessExceptions	緊急	云服務器所在宿主機服務進程異常，導致云服務器故障。	聯系運維人員處理	云服務器故障。
GuestOS系統層重啟告警	RestartGuestOS	一般	GuestOS內部重啟。	聯系運維人員處理。	在系統重啟場景下，可能導致業務中斷。
實例計劃規格變更等待執行	instance_resize_scheduled	重要	實例在計劃時間規格變更，任務等待執行。	確認執行窗口對業務的影響。	實例等待執行規格變更操作。
實例計劃遷移等待執行	instance_migrate_scheduled	重要	由于底層硬件、系統運維等影響，實例在計劃時間遷移，任務等待執行。	確認執行窗口對業務的影響。	實例等待執行遷移操作。
實例計劃停止等待執行	instance_stop_scheduled	重要	由于底層硬件、系統運維等影響，實例在計劃時間停止，任務等待執行。	確認執行窗口對業務的影響。	實例中止等待。
實例計劃重啟等待執行	instance_reboot_scheduled	重要	由于底層硬件、系統運維等影響，實例在計劃時間重啟，任務等待執行。	確認執行窗口對業務的影響。	實例等待執行重啟。
實例計劃重新部署等待執行	instance_redeploy_scheduled	重要	由于底層硬件、系統運維等影響，實例在計劃時間重新部署到新主機，任務等待執行。	確認執行窗口對業務的影響。	實例等待執行重部署。
GPU SRAM存在 Uncorrectable ECC告警	SRAMUncorrectableEccError	重要	GPU卡SRAM出現Uncorrectable ECC Error硬件故障。	如果業務受損，請提交工單。	可能GPU硬件問題導致SRAM故障，導致業務異常退出。
GPU存在infoROM告警	gpuInfoROMAlarm	重要	GPU可能存在硬件問題，導致驅動讀取不到inforom信息。	非敏感業務可以繼續使用該GPU卡，敏感業務請提交工單。	對業務暫時沒有影響，當GPU硬件出現ECC故障時，可能無法自動完成故障頁隔離，導致業務受損。
GPU發生double bit ECC告警	doubleBitEccError	重要	GPU硬件存在double bit ECC故障。	如果業務受損停止，建議嘗試重啟虛擬機恢復業務。如果業務仍然無法恢復，請提交工單。	可能會造成業務中斷，故障頁隔離后業務可繼續正常使用GPU。
GPU隔離頁過多告警	gpuTooManyRetiredPagesAlarm	重要	GPU硬件存在過多ECC隔離頁。	如果業務受損，請提交工單。	GPU硬件存在過多ECC故障，可能頻繁影響業務正常運行。
GPU A100 硬件發生ECC告警	gpuA100EccAlarm	重要	GPU卡出現ECC硬件故障。	如果業務受損停止，建議嘗試重啟虛擬機恢復業務。如果業務仍然無法恢復，請提交工單。	可能會造成業務中斷，故障頁隔離后業務可繼續正常使用GPU。
GPU ECC內存頁隔離失敗告警	eccPageRetirementRecordingFailure	重要	GPU硬件存在ECC故障，驅動自動隔離內存頁時失敗。	如果業務受損，請提交工單。	可能會造成業務中斷，故障頁隔離隔離失敗，可能導致業務無法使用GPU。
GPU ECC頁隔離告警	eccPageRetirementRecordingEvent	一般	存在ECC硬件錯誤，發生內存頁自動隔離。	如果業務受損停止，建議嘗試重啟虛擬機恢復業務。如果業務仍然無法恢復，請提交工單。	一般隨ECC故障告警出現，單獨出現不影響業務。
GPU single bit ECC過多告警	highSingleBitEccErrorRate	重要	ECC硬件存在過高ECC single bit錯誤。	如果業務受損停止，建議嘗試重啟虛擬機恢復業務。如果業務仍然無法恢復，請提交工單。	single bit的錯誤能夠自動恢復，一般不影響GPU相關應用程序。
GPU驅動掉卡告警	gpuDriverLinkFailureAlarm	重要	GPU鏈路正常，NVIDIA驅動找不到GPU硬件	建議嘗試重啟虛擬機恢復業務。如果業務仍然無法恢復，請提交工單。	一般驅動問題導致找不到對應位置的GPU。
GPU卡鏈路故障告警	gpuPcieLinkFailureAlarm	重要	GPU鏈路異常，通過lspci查看GPU硬件出現故障。	如果業務受損，請提交工單。	硬件問題導致GPU鏈路異常，驅動無法使用GPU。
虛擬機GPU丟卡告警	vmLostGpuAlarm	重要	虛擬機實際有的GPU卡數量比規格里應分配的GPU卡數量少。	如果業務受損，請提交工單。	虛擬機GPU卡丟失。
GPU顯存頁告警	gpuMemoryPageFault	重要	GPU內存頁發生故障，故障可能由應用、驅動或硬件引起	如果業務受損，請提交工單。	可能GPU硬件問題導致顯存故障，導致業務異常退出。
GPU圖像引擎異常告警	graphicsEngineException	重要	GPU圖像引擎發生故障，可能由應用、驅動或硬件引起。	如果業務受損，請提交工單。	可能GPU硬件問題導致圖像引擎故障，導致業務異常退出。
GPU溫度過高告警	highTemperatureEvent	重要	GPU硬件溫度過高。	如果業務受損，請提交工單。	GPU溫度超過溫度閾值，可能會引起GPU卡性能下降。
GPU NVLINK鏈路錯誤告警	nvlinkError	重要	NVLINK的鏈路出現硬件故障	如果業務受損，請提交工單。	NVLINK鏈路故障，影響業務使用GPU NVLINK能力。
nvidia-smi命令卡住	nvidiaSmiHangEvent	重要	nvidia-smi命令超時，該命令可能卡住	如果業務受損，請提交工單。	可能是命令執行過程中，觸發驅動問題，導致命令卡住，同時可能出現業務使用驅動報錯問題。
開始熱遷移	liveMigrationStarted	重要	彈性云主機所在的主機可能出現故障，提前對虛擬機進行熱遷移，避免宕機后導致業務中斷。	等待虛擬機遷移成功，狀態恢復正常。	實例熱遷移開始。
結束熱遷移	liveMigrationCompleted	重要	熱遷移已經結束，彈性云主機已恢復正常。	確認業務是否受到影響。	實例熱遷移結束。
熱遷移失敗	liveMigrationFailed	重要	彈性云主機熱遷移出現問題，未熱遷移成功。	確認應用集群業務是否受損。	實例熱遷移失敗。
宿主機存在宕機風險	hostMayCrash	重要	彈性云主機所在的宿主機存在宕機風險，且由于一些原因，無法通過熱遷移手段規避該風險。	確認應用集群業務是否受損。	實例有重啟風險。


                    說明
                    自動恢復：彈性云主機所在的硬件出現故障時，系統會自動將彈性云主機遷移至正常的物理機，該過程會導致云主機重啟。

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

智算服務

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

云監控服務

云監控服務

彈性云主機

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

活動

智算服務

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

云監控服務

云監控服務

彈性云主機