物理機支持的事件列表
更新時間 2024-05-16 10:53:36
最近更新時間: 2024-05-16 10:53:36
分享文章
| 事件名稱 | 事件ID | 事件級別 | 事件說明 | 處理建議 | 事件影響 |
|---|---|---|---|---|---|
| GPU SRAM存在 Uncorrectable ECC告警 | SRAMUncorrectableEccError | 重要 | GPU卡SRAM出現Uncorrectable ECC Error硬件故障。 | 如果業務受損,請提交工單。 | 可能GPU硬件問題導致SRAM故障,導致業務異常退出 |
| 主機重啟 | osReboot | 重要 | 物理機實例重啟。 包括: 1. 在管理控制臺進行重啟操作 2. 通過API接口下發重啟指令 |
1. 業務應用做成高可用。 2. 主機恢復后,確認業務是否自動恢復。 |
業務中斷 |
| 異常重啟 | serverReboot | 重要 | 物理機實例異常重啟。 包括: 1. 操作系統異常導致重啟 2. 主機硬件故障導致重啟 |
1. 業務應用做成高可用。 2. 主機恢復后,確認業務是否自動恢復。 |
業務中斷 |
| 主機關機 | osShutdown | 重要 | 物理機實例關機。 包括: 1. 在管理控制臺進行關機操作 2. 通過API接口下發關機指令 |
1. 業務應用做成高可用。 2. 主機恢復后,確認業務是否自動恢復。 |
業務中斷 |
| 異常關機 | serverShutdown | 重要 | 物理機實例異常關機。 包括: 1. 主機異常下電 2. 主機硬件故障導致關機 |
1. 業務應用做成高可用。 2. 主機恢復后,確認業務是否自動恢復。 |
業務中斷 |
| 網絡中斷 | linkDown | 重要 | 物理機網絡中斷。 包括: 1. 主機異常關機、重啟 2. 交換機故障引起的網絡中斷 3. 網關節點故障引起的中斷 |
1. 業務應用做成高可用。 2. 主機恢復后,確認業務是否自動恢復。 |
業務中斷 |
| PCIE異常 | pcieError | 重要 | 物理機PCIe設備硬件故障。 包括: 1. 主板故障 2. PCIe設備故障 |
1. 業務應用做成高可用。 2. 主機恢復后,確認業務是否自動恢復。 |
影響網絡或硬盤讀寫業務 |
| 硬盤故障 | diskError | 重要 | 物理機磁盤故障。 包括: 1. 硬盤背板故障 2. 硬盤本身故障 |
1. 業務應用做成高可用。 2. 主機恢復后,確認業務是否自動恢復。 |
影響數據讀寫業務或主機無法啟動 |
| 云存儲連接異常 | storageError | 重要 | 物理機云硬盤鏈接異常。 包括: 1. SDI卡故障 2. 遠端存儲故障 |
1. 業務應用做成高可用。 2. 主機恢復后,確認業務是否自動恢復。 |
影響數據讀寫業務或主機無法啟動 |
| GPU存在infoROM告警 | gpuInfoROMAlarm | 重要 | GPU可能存在硬件問題,導致驅動讀取不到inforom信息。 | 業務可以繼續使用該GPU卡,不敏感業務可以繼續使用,敏感業務請提交工單處理。 | 對業務暫時沒有影響,當GPU硬件出現ECC故障時,可能無法自動完成故障頁隔離,導致業務受損。 |
| GPU發生double bit ECC告警 | doubleBitEccError | 重要 | GPU硬件存在double bit ECC故障。 | 如果業務受損停止,則重啟業務恢復。 如果業務無法啟動,建議嘗試重啟虛擬機恢復業務。 如果業務仍然無法恢復,請提交工單。 |
可能會造成業務中斷,故障頁隔離后業務可繼續正常使用GPU。 |
| GPU隔離頁過多告警 | gpuTooManyRetiredPagesAlarm | 重要 | GPU硬件存在過多ECC隔離頁。 | 如果業務受損,請提交工單。 | GPU硬件存在過多ECC故障,可能頻繁影響業務運行。 |
| GPU A100 硬件發生ECC告警 | gpuA100EccAlarm | 重要 | GPU卡出現ECC硬件故障。 | 如果業務受損停止,則重啟業務恢復。 如果業務無法啟動,建議嘗試重啟虛擬機恢復業務。 如果業務仍然無法恢復,請提交工單。 |
可能會造成業務中斷,故障頁隔離后業務可繼續正常使用GPU。 |
| GPU ECC內存頁隔離失敗告警 | eccPageRetirementRecordingFailure | 重要 | GPU硬件存在ECC故障,驅動自動隔離這些頁時失敗。 | 如果業務受損停止,則重啟業務恢復。 如果業務無法啟動,建議嘗試重啟虛擬機恢復業務。 如果業務仍然無法恢復,請提交工單。 |
可能會造成業務中斷,故障頁隔離隔離失敗,可能導致業務無法使用GPU。 |
| GPU ECC頁隔離告警 | eccPageRetirementRecordingEvent | 一般 | 存在ECC硬件錯誤,發生內存頁自動隔離。 | 如果業務受損停止,則重啟業務恢復。 如果業務無法啟動,建議嘗試重啟虛擬機恢復業務。 如果業務仍然無法恢復,請提交工單。 |
一般隨ECC故障告警出現,單獨出現不影響業務。 |
| GPU single bit ECC過多告警 | highSingleBitEccErrorRate | 重要 | ECC硬件存在過高ECC single bit錯誤。 | 如果業務受損停止,則重啟業務恢復。 如果業務無法啟動,建議嘗試重啟虛擬機恢復業務。 如果業務仍然無法恢復,請提交工單。 |
single bit的錯誤能夠自動恢復,一般不影響GPU相關應用程序。 |
| GPU驅動掉卡告警 | gpuDriverLinkFailureAlarm | 重要 | GPU鏈路正常,NVIDIA驅動找不到GPU硬件。 | 建議嘗試重啟虛擬機恢復業務。如果業務仍然無法恢復,請提交工單。 | 一般驅動問題導致找不到對應位置的GPU。 |
| GPU卡鏈路故障告警 | gpuPcieLinkFailureAlarm | 重要 | GPU鏈路異常,通過lspci無法查看GPU硬件信息。 | 如果業務受損,請提交工單。 | 硬件問題導致GPU卡鏈路異常,驅動無法使用GPU。 |
| 虛擬機GPU丟卡告警 | vmLostGpuAlarm | 重要 | 虛擬機實際有的GPU卡數量比規格里應分配的GPU卡數量少。 | 如果業務受損,請提交工單。 | 虛擬機GPU卡丟失。 |
| GPU顯存頁告警 | gpuMemoryPageFault | 重要 | GPU顯存頁發生故障,故障可能由應用、驅動或硬件引起。 | 如果業務受損,請提交工單。 | 可能GPU硬件問題導致顯存故障,導致業務異常退出 |
| GPU圖像引擎異常告警 | graphicsEngineException | 重要 | GPU圖像引擎發生故障,可能由應用、驅動或硬件引起。 | 如果業務受損,請提交工單。 | 可能GPU硬件問題導致圖像引擎故障,導致業務異常退出。 |
| GPU溫度過高告警 | highTemperatureEvent | 重要 | GPU硬件溫度過高。 | 如果業務受損,請提交工單。 | GPU溫度超過溫度閾值,可能會引起GPU卡性能下降 |
| GPU NVLINK鏈路錯誤告警 | nvlinkError | 重要 | NVLINK的鏈路出現硬件故障。 | 如果業務受損,請提交工單。 | NVLINK鏈路故障,影響業務使用GPU nvlink能力。 |
| nvidia-smi命令卡住 | nvidiaSmiHangEvent | 重要 | nvidia-smi命令超時,該命令可能卡住 | 如果業務受損,請提交工單。 | 可能是命令執行過程中,觸發驅動問題,導致命令卡住,同時可能出現業務使用驅動報錯問題。 |