在本平臺運行的任務支持查看資源狀況,以方便您掌握資源的使用情況。平臺提供了豐富的監控指標,包括基本的CPU、內存、網絡及顯卡相關的指標,針對GPU,任務側提供了細粒度指標,您可根據平臺提供的指標對GPU進行剖析,深入了解GPU的使用情況。
操作步驟
在“訓練任務列表”處點擊需要查看的任務ID,進入任務詳情,在“運行情況”處找到具體的任務運行ID,在操作列點擊“更多”,選擇“監控”,可查看當前任務運行記錄的監控。
選擇實例,即pod,可查看此任務下指定pod的監控。注意當pod被清理時,無法查看原pod監控。
指標說明
| 指標 | 單位 | 說明 |
| CPU使用率 | % | pod的CPU使用率 |
| CPU使用量 | mc | pod的CPU使用量 |
| 內存使用率 | % | pod的內存使用率 |
| 內存使用量 | GB | pod的內存使用量 |
| 普通網絡吞吐 | Kbps | pod的網絡吞吐,包括網絡的接收速率和發送速率 |
| GPU/NPU顯存使用率 | % | pod的每張卡的顯存使用率 |
| GPU/NPU顯存使用量 | GB | pod的每張卡的顯存使用量 |
| GPU/NPU使用率 | % | pod的每張卡的顯卡使用率 |
| GPU/NPU溫度 | °C | pod的每張卡的溫度 |
| GPU/NPU功耗 | W | pod的每張卡的功耗 |
| GPU應用時鐘頻率 | MHz | pod的每張卡的SM應用時鐘頻率。 |
| GPU顯存應用時鐘頻率 | MHz | pod的每張卡的顯存應用時鐘頻率。 |
| GPU顯存帶寬利用率 | % | pod的每張卡的顯存帶寬利用率。 以英偉達GPU V100為例,其最大內存帶寬為900 GB/sec,如果當前的內存帶寬為450 GB/sec,則內存帶寬利用率為50%。 |
| GPU引擎活躍情況 | % | pod的每張卡的引擎活躍情況。 表示在一個時間間隔內,Graphics或Compute引擎處于Active的時間占比。 Graphics或Compute引擎處于Active是指Graphics或Compute Context綁定到線程,并且Graphics或Compute Context處于Busy狀態。 該值表示所有Graphics和Compute引擎的平均值。 |
| GPU線程束活躍時間占比 | % | pod的每張卡的線程束活躍時間占比。 表示在一個時間間隔內,至少一個線程束在一個SM(Streaming Multiprocessor)上處于Active的時間占比。 線程束處于Active是指一個線程束被調度且分配資源后的狀態,可能是在Computing、也可能是非Computing狀態(例如等待內存請求)。 該值表示所有SM的平均值,小于0.5表示未高效利用GPU,大于0.8是必要的。 假設一個GPU有N個SM: 一個核函數在整個時間間隔內使用N個線程塊運行在所有的SM上,此時該值為1(100%)。 一個核函數在一個時間間隔內運行N/5個線程塊,此時該值為0.2。 一個核函數使用N個線程塊,在一個時間間隔內,僅運行了1/5個周期的時間,此時該值為0.2。 |
| GPU線程束占用率 | % | pod的每張卡的線程束占用率。 表示在一個時間間隔內,駐留在SM上的線程束與該SM最大可駐留線程束的比例。 該值表示一個時間間隔內的所有SM的平均值。 占用率越高不代表GPU使用率越高。只有在GPU內存帶寬受限的工作負載(DCGM_FI_PROF_DRAM_ACTIVE)情況下,更高的占用率表示更有效的GPU使用率。 |
| GPU張量通道活躍周期分數 | % | pod的每張卡的張量通道活躍周期分數。 表示Tensor(HMMA/IMMA) Pipe處于Active狀態的周期比率。 該值表示一個時間間隔內的平均值,較高的值表示Tensor Cores的利用率較高。 該值為1(100%)表示在整個時間間隔內每隔一個指令周期發出一個Tensor指令(兩個周期完成一條指令)。 假設該值為0.2(20%),可能有如下情況: 在整個時間間隔內,有20%的SM的Tensor Core以100%的利用率運行。 在整個時間間隔內,有100%的SM的Tensor Core以20%的利用率運行。 在整個時間間隔的1/5時間內,有100%的SM上的Tensor Core以100%利用率運行。 其他組合模式。 |
| GPU顯存拷貝活躍周期分數 | % | pod的每張卡的顯存拷貝活躍周期分數。 表示顯存帶寬利用率將數據發送到設備顯存或從設備顯存接收數據的周期分數。 該值表示時間間隔內的平均值,較高的值表示設備顯存的利用率較高。 該值為1(100%)表示在整個時間間隔內的每個周期執行一條 DRAM 指令(實際上,峰值約為 0.8 (80%) 是可實現的最大值)。 假設該值為0.2(20%),表示20%的周期在時間間隔內讀取或寫入設備顯存。 |
| GPU FP64通道活躍周期分數 | % | pod的每張卡的FP64通道活躍周期分數。 注意:并非所有型號的顯卡都有此數據,如A10與L40S型號不支持此精度。 表示FP64(雙精度)Pipe處于Active狀態的周期分數。 該值表示一個時間間隔內的平均值,較高的值代表FP64 Cores有較高的利用率。 該值為 1(100%)表示在整個時間間隔內上每四個周期(以Volta類型卡為例)執行一次FP64指令。 假設該值為0.2(20%),可能有如下情況: 在整個時間間隔內,有20%的SM的FP64 Core以100%的利用率運行。 在整個時間間隔內,有100%的SM的FP64 Core以20%的利用率運行。 在整個時間間隔的1/5時間內,有100%的SM上的FP64 Core以100%利用率運行。 其他組合模式。 |
| GPU FP32通道活躍周期分數 | % | pod的每張卡的FP32通道活躍周期分數。 表示乘加操作FMA管道處于Active的周期分數,乘加操作包括FP32(單精度)和整數。 該值表示一個時間間隔內的平均值,較高的值代表FP32 Cores有較高的利用率。 該值為1(100%)表示在整個時間間隔內上每兩個周期(Volta類型卡為例)執行一次FP32指令。 假設該值為0.2(20%),可能有如下情況: 在整個時間間隔內,有20%的SM的FP32 Core以100%的利用率運行。 在整個時間間隔內,有100%的SM的FP32 Core以20%的利用率運行。 在整個時間間隔的1/5時間內,有100%的SM上的FP32 Core以100%利用率運行。 其他組合模式。 |
| GPU FP16通道活躍周期分數 | % | pod的每張卡的FP16通道活躍周期分數。 表示FP16(半精度)管道處于Active的周期分數。 該值表示一個時間間隔內的平均值,較高的值代表FP16 Cores有較高的利用率。 該值為 1 (100%) 表示在整個時間間隔內上每兩個周期(Volta類型卡為例)執行一次FP16指令。 假設該值為0.2(20%),可能有如下情況: 在整個時間間隔內,有20%的SM的FP16 Core以100%的利用率運行。 在整個時間間隔內,有100%的SM的FP16 Core以20%的利用率運行。 在整個時間間隔的1/5時間內,有100%的SM上的FP16 Core以100%利用率運行。 其他組合模式。 |
| GPU PCIe傳輸數據速率 | MB/s | pod的每張卡的PCIe傳輸數據速率。 表示通過PCIe總線傳輸的數據速率,包括協議標頭和數據有效負載。 該值表示一個時間間隔內的平均值,而不是瞬時值。 該速率在時間間隔內平均。例如,在1秒內傳輸1 GB數據,則無論以恒定速率還是突發傳輸數據,速率都是1 GB/s。理論上的最大PCIe Gen3帶寬為每通道985 MB/s。 |
| GPU PCIe接收數據速率 | MB/s | pod的每張卡的PCIe接收數據速率。 表示通過PCIe總線接收的數據速率,包括協議標頭和數據有效負載。 該值表示一個時間間隔內的平均值,而不是瞬時值。 該速率在時間間隔內平均。例如,在1秒內傳輸1 GB數據,則無論以恒定速率還是突發傳輸數據,速率都是1 GB/s。理論上的最大PCIe Gen3帶寬為每通道985 MB/s。 |
| GPU NVLINK傳輸數據速率 | MB/s | pod的每張卡的NVLINK傳輸數據速率。 表示通過NVLink傳輸的數據速率,不包括協議標頭。 該值表示一個時間間隔內的平均值,而不是瞬時值。 該速率在時間間隔內平均。例如,在1秒內傳輸1 GB數據,則無論以恒定速率還是突發傳輸數據,速率都是1 GB/s。理論上,最大NVLink Gen2帶寬為每個方向每個鏈路25 GB/s。 |
| GPU NVLINK接收數據速率 | MB/s | pod的每張卡的NVLINK接收數據。 表示通過NVLink接收的數據速率,不包括協議標頭。 該值表示一個時間間隔內的平均值,而不是瞬時值。 該速率在時間間隔內平均。例如,在1秒內傳輸1 GB數據,則無論以恒定速率還是突發傳輸數據,速率都是1 GB/s。理論上,最大NVLink Gen2帶寬為每個方向每個鏈路25 GB/s。 |