GPU監控
更新時間 2025-03-25 15:48:25
最近更新時間: 2025-03-25 15:48:25
分享文章
本文為您介紹如何查看GPU相關的監控項。
前提條件
- 確保GPU云主機已安裝GPU驅動/GRID驅動。驅動安裝請參見NVIDIA驅動安裝指引-GPU云主機-用戶指南-安裝NVIDIA驅動 - 天翼云 (daliqc.cn)。
- 確保您已在GPU云主機上安裝云監控插件,關于如何安裝云監控插件,請參見安裝監控Agent-彈性云主機-用戶指南-監控 - 天翼云 (daliqc.cn)。
注意
目前僅部分支持安裝監控Agent的地區能夠支持GPU監控項,詳情請參見監控Agent概覽-彈性云主機-用戶指南-監控 - 天翼云 (daliqc.cn)。
目前僅Nvidia GPU云主機能夠支持GPU監控項。
GPU監控項說明
| 監控項 | 單位 | 指標說明 | 維度 |
|---|---|---|---|
| GPU使用率 | % | 評估負載所消耗的計算能力,非空閑狀態百分比 | per-GPU |
| GPU顯存使用量 | 可選KB、MB、GB,默認展示MB 。 | 評估負載對顯存的占用 | per-GPU |
| GPU顯存使用率 | % | 評估負載對顯存的占用的百分比 | per-GPU |
| GPU溫度 | ℃ | 評估GPU散熱情況 | per-GPU |
| GPU功耗 | W | 評估GPU耗電情況 | per-GPU |
通過彈性云主機控制臺查看GPU監控項
- 登錄控制中心。
- 單擊控制中心頂部的
,選擇“地域”。 - 單擊左側導航欄“產品服務列表”,選擇“計算 > 彈性云主機”。
- 在彈性云主機列表頁點擊某一GPU云主機的主機名稱進入主機詳情頁。
- 點擊“監控”tab,選擇“GPU使用率”或"顯存使用率"即可查看該臺GPU云主機下全部顯卡的這兩個GPU監控項。
通過云監控控制臺查看GPU監控項
目前有兩種方式可以進入云監控控制臺查看GPU監控項,具體如下:
方式一
- 登錄控制中心。
- 單擊控制中心頂部的
,選擇“地域”。 - 單擊左側導航欄“產品服務列表”,選擇“計算 > 彈性云主機”。
- 在彈性云主機列表頁點擊某一GPU云主機的主機名稱進入主機詳情頁。
- 點擊“監控”tab,點擊"查看更多監控指標詳情"跳轉至云主機監控控制臺。
- 點擊“操作系統監控>GPU”,查看全量的GPU監控項。若該臺GPU云主機掛載了多塊顯卡,則可在下拉框中選擇對應的GPU查看該GPU的GPU使用率、GPU顯存使用量、GPU顯存使用率、GPU溫度、GPU功耗。
方式二
- 登錄控制中心。
- 單擊控制中心頂部的
,選擇“地域”。 - 單擊左側導航欄“產品服務列表”,選擇“管理與部署> 云監控”。
- 單擊"主機監控>云主機監控",進入云主機監控列表頁。
- 選中所要查看的GPU云主機,點擊“操作>查看監控圖標”,進入云主機監控詳情頁。
- 點擊“監控”tab,點擊"查看更多監控指標詳情"跳轉至云主機監控控制臺。
- 若該臺GPU云主機掛載了多塊顯卡,則可在下拉框中選擇對應的GPU查看該GPU的GPU使用率、GPU顯存使用量、GPU顯存使用率、GPU溫度、GPU功耗。
注意
如未安裝驅動則GPU監控項將為空,請您安裝驅動。
目前圖形加速基礎型GPU云主機的GPU溫度、GPU功率為空,無法提供監控告警。