彈性云主機ECS支持的事件列表
更新時間 2024-12-09 17:26:27
最近更新時間: 2024-12-09 17:26:27
分享文章
彈性云主機
| 事件名稱 | 事件ID | 事件級別 | 事件說明 | 處理建議 | 事件影響 |
|---|---|---|---|---|---|
| 刪除虛擬機 | deleteServer | 重要 | 刪除云服務器。 包括: 1. 在管理控制臺進行刪除操作。 2. 通過API接口下發刪除指令。 |
確認刪除操作是否為主動執行。 | 業務中斷。 |
| 重啟虛擬機 | rebootServer | 次要 | 云服務器重啟。 包括: 1. 在管理控制臺進行重啟操作。 2. 通過API接口下發重啟指令。 |
1. 確認操作是否為主動執行。 2.?業務應用做成高可用。 3. 云主機開機后,確認業務是否自動恢復。 |
業務中斷。 |
| 關閉虛擬機 | stopServer | 次要 | 云服務器關機。 包括: 1. 在管理控制臺進行關機操作。 2. 通過API接口下發關機指令。 |
1. 確認操作是否為主動執行。 2. 業務應用做成高可用。 3. 云主機開機后,確認業務是否自動恢復。 |
業務中斷。 |
| 刪除網卡 | deleteNic | 重要 | 云服務器刪除網卡。 包括: 1. 在管理控制臺刪除網卡。 2. 通過API接口下發刪除網卡指令。 |
1. 確認操作是否為主動執行。 2. 業務應用做成高可用。 3. 刪除網卡后,確認業務是否自動恢復。 |
網卡被刪除,存在業務中斷的可能。 |
| 變更規格 | resizeServer | 次要 | 云服務器規格變更。 包括: 1. 在管理控制臺進行變更規格。 2. 通過API接口下發變更規格指令。 |
1. 確認操作是否為主動執行。 2. 業務應用做成高可用。 3. 變更規格后,確認業務是否自動恢復。 |
業務中斷。 |
| 因硬件故障觸發重啟 | startAutoRecovery | 重要 | 彈性云主機所在的主機出現故障時,系統會自動將彈性云主機遷移至正常的物理機, 遷移過程中系統會自動重啟云主機。 |
等待恢復成功,觀察業務是否受到影響。 | 業務存在中斷的可能。 |
| 因硬件故障重啟已完成 | endAutoRecovery | 重要 | 當自動遷移完成后,彈性云主機已恢復正常。 | 當收到“恢復成功”時,云服務器已正常工作,可繼續使用。 | 業務恢復正常。 |
| 恢復超時(后臺處理中) | faultAutoRecovery | 重要 | 遷移彈性云主機至正常的物理機操作超時。 | 遷移業務至其他云服務器。 | 業務中斷。 |
| 開機失敗 | faultPowerOn | 重要 | 云主機開機失敗。 | 重試開機,若仍開機失敗,聯系運維人員處理。 | 云服務器無法開機。 |
| GPU鏈路故障 | GPULinkFault | 緊急 | 彈性云主機所在的主機上GPU卡故障。 包括: 1. GPU卡故障。 2. GPU卡故障恢復中。 |
業務應用做成高可用。GPU卡故障恢復后,確認業務是否自動恢復。 | 業務中斷。 |
| 主機進程異常導致虛擬機故障 | VMFaultsByHostProcessExceptions | 緊急 | 云服務器所在宿主機服務進程異常,導致云服務器故障。 | 聯系運維人員處理 | 云服務器故障。 |
| GuestOS系統層重啟告警 | RestartGuestOS | 一般 | GuestOS內部重啟。 | 聯系運維人員處理。 | 在系統重啟場景下,可能導致業務中斷。 |
| 實例計劃規格變更等待執行 | instance_resize_scheduled | 重要 | 實例在計劃時間規格變更,任務等待執行。 | 確認執行窗口對業務的影響。 | 實例等待執行規格變更操作。 |
| 實例計劃遷移等待執行 | instance_migrate_scheduled | 重要 | 由于底層硬件、系統運維等影響,實例在計劃時間遷移,任務等待執行。 | 確認執行窗口對業務的影響。 | 實例等待執行遷移操作。 |
| 實例計劃停止等待執行 | instance_stop_scheduled | 重要 | 由于底層硬件、系統運維等影響,實例在計劃時間停止,任務等待執行。 | 確認執行窗口對業務的影響。 | 實例中止等待。 |
| 實例計劃重啟等待執行 | instance_reboot_scheduled | 重要 | 由于底層硬件、系統運維等影響,實例在計劃時間重啟,任務等待執行。 | 確認執行窗口對業務的影響。 | 實例等待執行重啟。 |
| 實例計劃重新部署等待執行 | instance_redeploy_scheduled | 重要 | 由于底層硬件、系統運維等影響,實例在計劃時間重新部署到新主機,任務等待執行。 | 確認執行窗口對業務的影響。 | 實例等待執行重部署。 |
| GPU SRAM存在 Uncorrectable ECC告警 |
SRAMUncorrectableEccError | 重要 | GPU卡SRAM出現Uncorrectable ECC Error硬件故障。 | 如果業務受損,請提交工單。 | 可能GPU硬件問題導致SRAM故障,導致業務異常退出。 |
| GPU存在infoROM告警 | gpuInfoROMAlarm | 重要 | GPU可能存在硬件問題,導致驅動讀取不到inforom信息。 | 非敏感業務可以繼續使用該GPU卡,敏感業務請提交工單。 | 對業務暫時沒有影響,當GPU硬件出現ECC故障時,可能無法自動完成故障頁隔離,導致業務受損。 |
| GPU發生double bit ECC告警 | doubleBitEccError | 重要 | GPU硬件存在double bit ECC故障。 | 如果業務受損停止,建議嘗試重啟虛擬機恢復業務。 如果業務仍然無法恢復,請提交工單。 |
可能會造成業務中斷,故障頁隔離后業務可繼續正常使用GPU。 |
| GPU隔離頁過多告警 | gpuTooManyRetiredPagesAlarm | 重要 | GPU硬件存在過多ECC隔離頁。 | 如果業務受損,請提交工單。 | GPU硬件存在過多ECC故障,可能頻繁影響業務正常運行。 |
| GPU A100 硬件發生ECC告警 | gpuA100EccAlarm | 重要 | GPU卡出現ECC硬件故障。 | 如果業務受損停止,建議嘗試重啟虛擬機恢復業務。 如果業務仍然無法恢復,請提交工單。 |
可能會造成業務中斷,故障頁隔離后業務可繼續正常使用GPU。 |
| GPU ECC內存頁隔離失敗告警 | eccPageRetirementRecordingFailure | 重要 | GPU硬件存在ECC故障,驅動自動隔離內存頁時失敗。 | 如果業務受損,請提交工單。 | 可能會造成業務中斷,故障頁隔離隔離失敗,可能導致業務無法使用GPU。 |
| GPU ECC頁隔離告警 | eccPageRetirementRecordingEvent | 一般 | 存在ECC硬件錯誤,發生內存頁自動隔離。 | 如果業務受損停止,建議嘗試重啟虛擬機恢復業務。 如果業務仍然無法恢復,請提交工單。 |
一般隨ECC故障告警出現,單獨出現不影響業務。 |
| GPU single bit ECC過多告警 | highSingleBitEccErrorRate | 重要 | ECC硬件存在過高ECC single bit錯誤。 | 如果業務受損停止,建議嘗試重啟虛擬機恢復業務。 如果業務仍然無法恢復,請提交工單。 |
single bit的錯誤能夠自動恢復,一般不影響GPU相關應用程序。 |
| GPU驅動掉卡告警 | gpuDriverLinkFailureAlarm | 重要 | GPU鏈路正常,NVIDIA驅動找不到GPU硬件 | 建議嘗試重啟虛擬機恢復業務。如果業務仍然無法恢復,請提交工單。 | 一般驅動問題導致找不到對應位置的GPU。 |
| GPU卡鏈路故障告警 | gpuPcieLinkFailureAlarm | 重要 | GPU鏈路異常,通過lspci查看GPU硬件出現故障。 | 如果業務受損,請提交工單。 | 硬件問題導致GPU鏈路異常,驅動無法使用GPU。 |
| 虛擬機GPU丟卡告警 | vmLostGpuAlarm | 重要 | 虛擬機實際有的GPU卡數量比規格里應分配的GPU卡數量少。 | 如果業務受損,請提交工單。 | 虛擬機GPU卡丟失。 |
| GPU顯存頁告警 | gpuMemoryPageFault | 重要 | GPU內存頁發生故障,故障可能由應用、驅動或硬件引起 | 如果業務受損,請提交工單。 | 可能GPU硬件問題導致顯存故障,導致業務異常退出。 |
| GPU圖像引擎異常告警 | graphicsEngineException | 重要 | GPU圖像引擎發生故障,可能由應用、驅動或硬件引起。 | 如果業務受損,請提交工單。 | 可能GPU硬件問題導致圖像引擎故障,導致業務異常退出。 |
| GPU溫度過高告警 | highTemperatureEvent | 重要 | GPU硬件溫度過高。 | 如果業務受損,請提交工單。 | GPU溫度超過溫度閾值,可能會引起GPU卡性能下降。 |
| GPU NVLINK鏈路錯誤告警 | nvlinkError | 重要 | NVLINK的鏈路出現硬件故障 | 如果業務受損,請提交工單。 | NVLINK鏈路故障,影響業務使用GPU NVLINK能力。 |
| nvidia-smi命令卡住 | nvidiaSmiHangEvent | 重要 | nvidia-smi命令超時,該命令可能卡住 | 如果業務受損,請提交工單。 | 可能是命令執行過程中,觸發驅動問題,導致命令卡住,同時可能出現業務使用驅動報錯問題。 |
| 開始熱遷移 | liveMigrationStarted | 重要 | 彈性云主機所在的主機可能出現故障,提前對虛擬機進行熱遷移,避免宕機后導致業務中斷。 | 等待虛擬機遷移成功,狀態恢復正常。 | 實例熱遷移開始。 |
| 結束熱遷移 | liveMigrationCompleted | 重要 | 熱遷移已經結束,彈性云主機已恢復正常。 | 確認業務是否受到影響。 | 實例熱遷移結束。 |
| 熱遷移失敗 | liveMigrationFailed | 重要 | 彈性云主機熱遷移出現問題,未熱遷移成功。 | 確認應用集群業務是否受損。 | 實例熱遷移失敗。 |
| 宿主機存在宕機風險 | hostMayCrash | 重要 | 彈性云主機所在的宿主機存在宕機風險,且由于一些原因,無法通過熱遷移手段規避該風險。 | 確認應用集群業務是否受損。 | 實例有重啟風險。 |
說明自動恢復:彈性云主機所在的硬件出現故障時,系統會自動將彈性云主機遷移至正常的物理機,該過程會導致云主機重啟。