資源監控
更新時間 2025-01-10 09:42:04
最近更新時間: 2025-01-10 09:42:04
分享文章
資源監控提供了資源組和節點級別的監控能力,支持查看CPU和內存、網絡、GPU/NPU、磁盤等資源利用情況,支持不同的統計方式。
使用前提
當前用戶是主賬號。
操作說明
點擊“監控審計”>“資源監控”菜單,進入資源監控頁面,支持查看資源組和節點兩種維度的資源監控指標,支持模糊搜索與放大查看,支持切換統計方式。在選擇資源組與節點時,僅支持查詢狀態為“運行中”的資源組與“已綁定-正常”的節點。
統計方式說明:
- 資源組
- 默認方式:該方式根據各指標項的具體含義,選取了最能體現資源組整體使用情況的統計方式,例如平均值、最大值等。通過此統計方式,您可以了解該資源組的整體使用情況。
- 80/90/95分位:即第80/90/95百分位數,含義是將該資源組下所有節點的某一指標值從小到大排序,并計算相應的累計百分位,則某一百分位所對應數據的值就稱為這一百分位的百分位數。以資源組A的CPU使用率95分位=50% 為例,其含義是指該資源組下所有的節點中,95%的節點CPU使用率都低于50%。通過查看各資源組的80/90/95分位統計,可以了解大部分節點的資源消耗水平。
- 節點
- 默認方式:其坐標軸上每一點表示此前一段時間間隔的采樣數據的平均值。
- 80/90/95分位:其坐標軸上每一點表示此前一段時間間隔的采樣數據的80/90/95百分位數。
指標說明
資源組級別的指標
| 指標 | 單位 | 說明 |
|---|---|---|
| CPU負載 | 數值 | 默認統計資源組所有節點的CPU負載的平均值 |
| CPU使用率 | % | 默認統計資源組所有節點的CPU使用率的平均值 |
| 內存使用率 | % | 默認統計資源組所有節點的內存使用率的平均值 |
| 網絡吞吐 | Kbps | 默認統計資源組所有節點的網絡吞吐的平均值 |
| GPU/NPU使用率 | % | 默認統計資源組所有卡的使用率的平均值 |
| GPU/NPU顯存使用率 | % | 默認統計資源組所有卡的顯存使用率的平均值 |
| GPU/NPU顯存使用量 | GB | 默認統計資源組所有卡的顯存使用量的總量 |
| GPU/NPU最高溫度 | °C | 默認統計資源組所有卡的溫度的最大值 |
| GPU/NPU最大功耗 | W | 默認統計資源組所有卡的功耗的最大值 |
節點級別的指標
| 指標 | 單位 | 說明 |
|---|---|---|
| CPU負載 | 數值 | 節點的CPU負載(1分鐘) |
| CPU使用率 | % | 節點的CPU使用率 |
| 內存使用率 | % | 節點的內存使用率 |
| 網絡吞吐 | Kbps | 節點的網絡吞吐,包括網絡的接收速率和發送速率 |
| GPU/NPU使用率 | % | 節點每張卡的顯卡使用率 |
| GPU/NPU顯存使用率 | % | 節點每張卡的顯存使用率 |
| GPU/NPU顯存使用量 | GB | 節點每張卡的顯存使用量 |
| GPU/NPU溫度 | °C | 節點每張卡的溫度 |
| GPU/NPU功耗 | W | 節點每張卡的功耗 |
| NPU芯片健康狀態 | 數值 | 節點每張卡的NPU芯片健康狀態 取值范圍:{0,1} 1:表示在過去一段時間間隔內芯片處于健康狀態 0:表示在過去一段時間間隔內出現了不健康狀態 |
| 本地磁盤使用率 | % | 節點的本地磁盤使用率 |
| 本地磁盤讀速率 | KB/s | 節點的本地磁盤讀速率 |
| 本地磁盤寫速率 | KB/s | 節點的本地磁盤寫速率 |