彈性云主機支持的操作系統監控指標(安裝Agent)
更新時間 2024-06-21 11:30:01
最近更新時間: 2024-06-21 11:30:01
分享文章
本節介紹了彈性云主機支持的操作系統監控指標(安裝Agent)的功能說明、操作系統監控指標說明、維度。
功能說明
通過在彈性云主機中安裝Agent插件,可以為用戶提供服務器的系統級、主動式、細顆粒度監控服務。本節定義了彈性云主機上報云監控的操作系統監控指標。
操作系統監控目前支持的監控指標有:CPU相關監控項、CPU負載類相關監控項、內存相關監控項、磁盤相關監控項、磁盤I/O相關監控項、文件系統類相關監控項、網卡類相關監控項、NTP類相關監控項、TCP連接數類相關監控、GPU相關監控項。
安裝Agent后,您便可以查看彈性云主機的操作系統監控指標。指標采集周期是1分鐘。
操作系統監控指標說明
命名空間
AGT.ECS
操作系統監控指標:CPU
CPU相關監控指標說明
| 指標 | 指標名稱 | 指標含義 | 取值范圍 | 測量對象 | 監控周期(原始指標) |
|---|---|---|---|---|---|
| cpu_usage_idle | (Agent)CPU空閑時間占比 | 該指標用于統計測量對象當前CPU空閑時間占比。 單位:百分比 采集方式(Linux):通過計算采集周期內/proc/stat中的變化得出CPU空閑時間占比。 采集方式(Windows):用戶可以通過top命令查看 %Cpu(s) id值。 |
0-100% | 云主機 | 1分鐘 |
| cpu_usage_other | (Agent)其他CPU使用率 | 該指標用于統計測量對象其他占用CPU使用率。 單位:百分比 采集方式(Linux):其他CPU使用率=1- 空閑CPU使用率(%)- 內核空間CPU使用率- 用戶空間CPU使用率。 采集方式(Windows):其他CPU使用率=1- 空閑CPU使用率(%)- 內核空間CPU使用率- 用戶空間CPU使用率。 |
0-100% | 云主機 | 1分鐘 |
| cpu_usage_system | (Agent)內核空間CPU使用率 | 該指標用于統計測量對象當前內核空間占用CPU使用率。 單位:百分比 采集方式(Linux):通過計算采集周期內/proc/stat中的變化得出內核空間CPU使用率。用戶可以通過top命令查看 %Cpu(s) sy值。 采集方式(Windows):通過WindowsAPI GetSystemTimes獲取。 |
0-100% | 云主機 | 1分鐘 |
| cpu_usage_user | (Agent)用戶空間CPU使用率 | 該指標用于統計測量對象當前用戶空間占用CPU使用率。 單位:百分比 采集方式(Linux):通過計算采集周期內/proc/stat中的變化得出cpu使用率。用戶可以通過top命令查看 %Cpu(s) us值。 采集方式(Windows):通過WindowsAPI GetSystemTimes獲取。 |
0-100% | 云主機 | 1分鐘 |
| cpu_usage | (Agent)CPU使用率 | 該指標用于統計測量對象當前CPU使用率。 單位:百分比 采集方式(Linux):通過計算采集周期內/proc/stat中的變化得出cpu使用率。用戶可以通過top命令查看 %Cpu(s)值。 采集方式(Windows):通過WindowsAPI GetSystemTimes獲取。 |
0-100% | 云主機 | 1分鐘 |
| cpu_usage_nice | (Agent)Nice進程CPU使用率 | 該指標用于統計測量對象當前Nice進程CPU使用率。 單位:百分比 采集方式(Linux):通過計算采集周期內/proc/stat中的變化得出Nice進程CPU使用率。用戶可以通過top命令查看 %Cpu(s) ni值。 采集方式(Windows):暫不支持。 |
0-100% | 云主機 | 1分鐘 |
| cpu_usage_iowait | (Agent)iowait狀態占比 | 該指標用于統計測量對象當前iowait狀態占用CPU的比率。 單位:百分比 采集方式(Linux):通過計算采集周期內/proc/stat中的變化得出iowait狀態占比。用戶可以通過top命令查看 %Cpu(s) wa值。 采集方式(Windows):暫不支持。 |
0-100% | 云主機 | 1分鐘 |
| cpu_usage_irq | (Agent)CPU中斷時間占比 | 該指標用于統計測量對象當前CPU處理中斷用時占用CPU時間的比率。 單位:百分比 采集方式(Linux):通過計算采集周期內/proc/stat中的變化得出CPU中斷時間占比。用戶可以通過top命令查看 %Cpu(s) hi值。 采集方式(Windows):暫不支持。 |
0-100% | 云主機 | 1分鐘 |
| cpu_usage_softirq | (Agent)CPU軟中斷時間占比 | 該指標用于統計測量對象當前CPU處理軟中斷時間占用CPU時間的比率。 單位:百分比 采集方式(Linux):通過計算采集周期內/proc/stat中的變化得出CPU軟中斷時間占比。用戶可以通過top命令查看 %Cpu(s) si值。 采集方式(Windows):暫不支持。 |
0-100% | 云主機 | 1分鐘 |
操作系統監控指標:CPU負載
CPU負載指標說明
| 指標 | 指標名稱 | 指標含義 | 取值范圍 | 測量對象 | 監控周期(原始指標) |
|---|---|---|---|---|---|
| load_average1 | (Agent) 1分鐘平均負載 | 該指標用于統計測量對象過去1分鐘的CPU平均負載。 采集方式(Linux):通過/proc/loadavg中load1/邏輯CPU個數得到。用戶可以通過top命令查看load1值。 |
≥0 | 云主機 | 1分鐘 |
| load_average5 | (Agent) 5分鐘平均負載 | 該指標用于統計測量對象過去5分鐘的CPU平均負載。 采集方式(Linux):通過/proc/loadavg中load5/邏輯CPU個數得到。用戶可以通過top命令查看load5值。 |
≥0 | 云主機 | 1分鐘 |
| load_average15 | (Agent) 15分鐘平均負載 | 該指標用于統計測量對象過去15分鐘的CPU平均負載。 采集方式(Linux):通過/proc/loadavg中load15/邏輯CPU個數得到。用戶可以通過top命令查看load15值。 |
≥0 | 云主機 | 1分鐘 |
說明Windows系統暫不支持CPU負載指標。
操作系統監控指標:內存
內存相關監控指標說明
| 指標 | 指標名稱 | 指標含義 | 取值范圍 | 測量對象 | 監控周期(原始指標) |
|---|---|---|---|---|---|
| mem_available | (Agent)可用內存 | 該指標用于統計測量對象的可用內存。 單位:GB 采集方式(Linux):通過/proc/meminfo得到MemAvailable;若/proc/meminfo中不顯示MemAvailable,則MemAvailable=MemFree+Buffers+Cached 采集方式(Windows):計算方法為(內存總量-已用內存量)。通過WindowsAPI GlobalMemoryStatusEx獲取。 |
≥0 GB | 云主機 | 1分鐘 |
| mem_usedPercent | (Agent)內存使用率 | 該指標用于統計測量對象的內存使用率。 單位:百分比 采集方式(Linux):通過/proc/meminfo文件獲取,(MemTotal-MemAvailable)/MemTotal 采集方式(Windows):計算方法為( 已用內存量/內存總量*100%)。 |
0-100% | 云主機 | 1分鐘 |
| mem_free | (Agent)空閑內存量 | 該指標用于統計測量對象的空閑內存量。 單位:GB 采集方式(Linux):通過/proc/meminfo獲取。 采集方式(Windows):暫不支持。 |
≥0 GB | 云主機 | 1分鐘 |
| mem_buffers | (Agent)Buffers占用量 | 該指標用于統計測量對象的Buffers內存量。 單位:GB 采集方式(Linux):通過/proc/meminfo獲取。用戶可以通過top命令查看 KiB Mem:buffers值。 采集方式(Windows):暫不支持。 |
≥0 GB | 云主機 | 1分鐘 |
| mem_cached | (Agent)Cache占用量 | 該指標用于統計測量對象Cache內存量。 單位:GB 采集方式(Linux):通過/proc/meminfo獲取。用戶可以通過top命令查看 KiB Swap:cached Mem值。 采集方式(Windows):暫不支持。 |
≥0 GB | 云主機 | 1分鐘 |
| total_open_files | (Agent)所有進程使用的句柄總和 | 該指標用于統計測量對象的所有進程使用的句柄總和。單位:個采集方式(Linux):通過/proc/{pid}/fd文件匯總所有進程使用的句柄數。采集方式(Windows):暫不支持。 | ≥0 GB | 云主機 | 1分鐘 |
操作系統監控指標:磁盤
說明目前僅支持物理磁盤指標的采集,不支持通過網絡文件系統協議掛載的磁盤。
會默認屏蔽docker相關的掛載點。掛載點前綴如下:
/var/lib/docker;/mnt/paas/kubernetes;/var/lib/mesos
磁盤相關監控指標說明
| 指標 | 指標名稱 | 指標含義 | 取值范圍 | 測量對象 | 監控周期(原始指標) |
|---|---|---|---|---|---|
| mountPointPrefix_disk_free | (Agent)磁盤剩余存儲量 | 該指標用于統計測量對象磁盤的剩余存儲空間。 單位:GB 采集方式(Linux):執行df -h命令,查看Avail列數據。掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./。 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW獲取磁盤空間數據。掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./。 |
≥0 GB | 云主機 | 1分鐘 |
| mountPointPrefix_disk_total | (Agent)磁盤存儲總量 | 該指標用于統計測量對象磁盤存儲總量。 單位:GB 采集方式(Linux):執行df -h命令,查看Size列數據。 掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./。 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW獲取磁盤空間數據。掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./。 |
≥0 GB | 云主機 | 1分鐘 |
| mountPointPrefix_disk_used | (Agent)磁盤已用存量 | 該指標用于統計測量對象磁盤的已用存儲空間。 單位:GB 采集方式(Linux):執行df -h命令,查看Used列數據。掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./。 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW獲取磁盤空間數據。掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./。 |
≥0 GB | 云主機 | 1分鐘 |
| mountPointPrefix_disk_usedPercent | (Agent)磁盤使用率 | 該指標用于統計測量對象磁盤使用率,以百分比為單位。計算方式為: 磁盤已用存儲量/磁盤存儲總量。 單位:百分比 采集方式(Linux):通過計算Used/Size得出。掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./。 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW獲取磁盤空間數據。掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./。 |
0-100% | 云主機 | 1分鐘 |
操作系統監控指標:磁盤I/O
磁盤I/O相關監控指標說明
| 指標 | 指標名稱 | 指標含義 | 取值范圍 | 測量對象 | 監控周期(原始指標) |
|---|---|---|---|---|---|
| mountPointPrefix_disk_agt_read_bytes_rate | (Agent)磁盤讀速率 | 該指標用于統計每秒從測量對象讀出數據量。 單位:byte/s 采集方式(Linux): 通過計算采集周期內/proc/diskstats中對應設備第六列數據的變化得出磁盤讀速率。 掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./。 采集方式(Windows): 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk對象獲取磁盤I/O數據。 掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./。 高CPU情況下存在獲取超時的現象,會導致無法獲取監控數據。 |
≥ 0 bytes/s | 云主機 | 1分鐘 |
| mountPointPrefix_disk_agt_read_requests_rate | (Agent)磁盤讀操作速率 | 該指標用于統計每秒從測量對象讀取數據的請求次數。 單位:請求/秒 采集方式(Linux): 通過計算采集周期內/proc/diskstats中對應設備第四列數據的變化得出磁盤讀操作速率。 掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./。 采集方式(Windows): 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk對象獲取磁盤I/O數據。 掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./。 高CPU情況下存在獲取超時的現象,會導致無法獲取監控數據。 |
≥ 0 Requests/s | 云主機 | 1分鐘 |
| mountPointPrefix_disk_agt_write_bytes_rate | (Agent)磁盤寫速率 | 該指標用于統計每秒寫到測量對象的數據量。 單位:byte/s 采集方式(Linux): 通過計算采集周期內/proc/diskstats中對應設備第十列數據的變化得出磁盤寫速率。 掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./。 采集方式(Windows): 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk對象獲取磁盤I/O數據。 掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./。 高CPU情況下存在獲取超時的現象,會導致無法獲取監控數據。 |
≥ 0 bytes/s | 云主機 | 1分鐘 |
| mountPointPrefix_disk_agt_write_requests_rate | (Agent)磁盤寫操作速率 | 該指標用于統計每秒向測量對象寫數據的請求次數。 單位:請求/秒 采集方式(Linux): 通過計算采集周期內/proc/diskstats中對應設備第八列數據的變化得出磁盤寫操作速率。 掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./。 采集方式(Windows): 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk對象獲取磁盤I/O數據。 掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./。 高CPU情況下存在獲取超時的現象,會導致無法獲取監控數據。 |
≥ 0 Requests/s | 云主機 | 1分鐘 |
| disk_readTime | (Agent)讀操作平均耗時 | 該指標用于統計測量對象磁盤讀操作平均耗時。 單位:ms/count 采集方式(Linux): 通過計算采集周期內/proc/diskstats中對應設備第七列數據的變化得出磁盤讀操作平均耗時。 掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暫不支持。 |
≥ 0 ms/count | 云主機 | 1分鐘 |
| disk_writeTime | (Agent)寫操作平均耗時 | 該指標用于統計測量對象磁盤寫操作平均耗時。 單位:ms/count 采集方式(Linux): 通過計算采集周期內/proc/diskstats中對應設備第十一列數據的變化得出磁盤寫操作平均耗時。 掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暫不支持。 |
≥ 0 ms/count | 云主機 | 1分鐘 |
| disk_ioUtils | (Agent)磁盤I/O使用率 | 該指標用于統計測量對象磁盤I/O使用率。 單位:百分比 采集方式(Linux): 通過計算采集周期內/proc/diskstats中對應設備第十三列數據的變化得出磁盤I/O使用率。 掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暫不支持。 |
0-100% | 云主機 | 1分鐘 |
| disk_queue_length | (Agent)平均隊列長度 | 該指標用于統計指定時間段內,平均等待完成的讀取或寫入操作請求的數量 單位:個 采集方式(Linux): 通過計算采集周期內/proc/diskstats中對應設備第十四列數據的變化得出磁盤平均隊列長度。 掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暫不支持。 |
≥ 0 Counts | 云主機 | 1分鐘 |
| disk_write_bytes_per_operation | (Agent)平均寫操作大小 | 該指標用于統計指定時間段內,平均每個寫I/O操作傳輸的字節數。 單位:byte/op 采集方式(Linux): 通過計算采集周期內/proc/diskstats中對應設備第十列數據的變化與第八列數據的變化相除得出磁盤平均寫操作大小。 掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暫不支持。 |
≥ 0 ms/op | 云主機 | 1分鐘 |
| disk_read_bytes_per_operation | (Agent)平均讀操作大小 | 該指標用于統計指定時間段內,平均每個讀I/O操作傳輸的字節數。 單位:byte/op 采集方式(Linux): 通過計算采集周期內/proc/diskstats中對應設備第六列數據的變化與第四列數據的變化相除得出磁盤平均讀操作大小。 掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暫不支持。 |
≥ 0 KB/op | 云主機 | 1分鐘 |
| disk_io_svctm | (Agent)平均I/O服務時長 | 該指標用于統計指定時間段內,平均每個讀或寫I/O的操作時長。 單位:ms/op 采集方式(Linux): 通過計算采集周期內/proc/diskstats中對應設備第十三列數據的變化與第四列數據和第八列數據和的變化相除得出磁盤平均I/O時長。 掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暫不支持。 |
≥ 0 ms/op | 云主機 | 1分鐘 |
操作系統監控指標:文件系統
文件系統類監控指標說明
| 指標 | 指標名稱 | 指標含義 | 取值范圍 | 測量對象 | 監控周期(原始指標) |
|---|---|---|---|---|---|
| disk_fs_rwstate | (Agent)文件系統讀寫狀態 | 該指標用于統計測量對象掛載文件系統的讀寫狀態。狀態分為:可讀寫(0)/只讀(1)。 采集方式(Linux):通過讀取/proc/mounts中第四列文件系統掛載參數獲得。 |
0,1 | 云主機 | 1分鐘 |
| disk_inodesTotal | (Agent)inode空間大小 | 該指標用于統計測量對象當前磁盤的inode空間量。 采集方式(Linux):執行df -i命令,查看Inodes列數據。掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./~。 |
≥ 0 | 云主機 | 1分鐘 |
| disk_inodesUsed | (Agent)inode已使用空間 | 該指標用于統計測量對象當前磁盤已使用的inode空間量。 采集方式(Linux):執行df -i命令,查看IUsed列數據。掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./~。 |
≥ 0 | 云主機 | 1分鐘 |
| disk_inodesUsedPercent | (Agent)inode已使用占比 | 該指標用于統計測量對象當前磁盤已使用的inode占比。 單位:百分比 采集方式(Linux):執行df -i命令,查看IUse%列數據。掛載點前綴路徑長度不能超過64個字符,必須以字母開頭,只能包含0-9/a-z/A-Z/-/./~。 |
0-100% | 云主機 | 1分鐘 |
說明Windows系統暫不支持文件系統類監控指標。
操作系統監控指標:網卡
網卡相關監控指標說明
| 指標 | 指標名稱 | 指標含義 | 取值范圍 | 測量對象 | 監控周期(原始指標) |
|---|---|---|---|---|---|
| net_bitRecv | (Agent)出網帶寬 | 該指標用于統計測量對象網卡每秒發送的比特數。 單位:bit/s 采集方式(Linux):通過計算采集周期內/proc/net/dev中的變化得出。 采集方式(Windows):使用WMI中MibIfRow對象獲取網絡指標數據。 |
≥ 0 bits/s | 云主機 | 1分鐘 |
| net_bitSent | (Agent)入網帶寬 | 該指標用于統計測量對象網卡每秒接收的比特數。 單位:bit/s 采集方式(Linux):通過計算采集周期內/proc/net/dev中的變化得出。 采集方式(Windows):使用WMI中MibIfRow對象獲取網絡指標數據。 |
≥ 0 bits/s | 云主機 | 1分鐘 |
| net_packetRecv | (Agent)網卡包接收速率 | 該指標用于統計測量對象網卡每秒接收的數據包數。 單位:Count/s 采集方式(Linux):通過計算采集周期內/proc/net/dev中的變化得出。 采集方式(Windows):使用WMI中MibIfRow對象獲取網絡指標數據。 |
≥ 0 counts/s | 云主機 | 1分鐘 |
| net_packetSent | (Agent)網卡包發送速率 | 該指標用于統計測量對象網卡每秒發送的數據包數。 單位:Count/s 采集方式(Linux):通過計算采集周期內/proc/net/dev中的變化得出。 采集方式(Windows):使用WMI中MibIfRow對象獲取網絡指標數據。 |
≥ 0 counts/s | 云主機 | 1分鐘 |
| net_errin | (Agent)接收誤包率 | 該指標用于統計測量對象網卡每秒接收的錯誤數據包數量占所接收的數據包的比率。 單位:百分比 采集方式(Linux):通過計算采集周期內/proc/net/dev中的變化得出。 采集方式(Windows):暫不支持。 |
0-100% | 云主機 | 1分鐘 |
| net_errout | (Agent)發送誤包率 | 該指標用于統計測量對象網卡每秒發送的錯誤數據包數量占所發送的數據包的比率。 單位:百分比 采集方式(Linux):通過計算采集周期內/proc/net/dev中的變化得出。 采集方式(Windows):暫不支持。 |
0-100% | 云主機 | 1分鐘 |
| net_dropin | (Agent)接收丟包率 | 該指標用于統計測量對象網卡每秒接收并已丟棄的數據包數量占所接收的數據包的比率 單位:百分比 采集方式(Linux):通過計算采集周期內/proc/net/dev中的變化得出。 采集方式(Windows):暫不支持。 |
0-100% | 云主機 | 1分鐘 |
| net_dropout | (Agent)發送丟包率 | 該指標用于統計測量對象網卡每秒發送并已丟棄的數據包數量占所發送的數據包的比率。 單位:百分比 采集方式(Linux):通過計算采集周期內/proc/net/dev中的變化得出。 采集方式(Windows):暫不支持。 |
0-100% | 云主機 | 1分鐘 |
進程類監控指標說明
| 指標 | 指標名稱 | 指標含義 | 取值范圍 | 測量對象 | 監控周期(原始指標) |
|---|---|---|---|---|---|
| proc_pHashId_cpu | 進程CPU使用率 | 進程消耗的CPU百分比,pHashId是(進程名+進程ID)的md5值。 單位:百分比 采集方式(Linux):通過計算/proc/pid/stat的變化得出。 采集方式(Windows):通過Windows API GetProcessTimes獲取進程CPU使用率。 |
0-100% | 云主機 | 1分鐘 |
| proc_pHashId_mem | 進程內存使用率 | 進程消耗的內存百分比,pHashId是(進程名+進程ID)的md5值。 單位:百分比 采集方式(Linux): RSS*PAGESIZE/MemTotal RSS: 通過獲取/proc/pid/statm第二列得到 PAGESIZE: 通過命令getconf PAGESIZE獲取 MemTotal:通過/proc/meminfo獲取 采集方式(Windows):使用Windows API procGlobalMemoryStatusEx獲取內存總量,通過GetProcessMemoryInfo獲取內存已使用量,計算兩者比值得到內存使用率。 |
0-100% | 云主機 | 1分鐘 |
| proc_pHashId_file | 進程打開文件數 | 進程打開文件數,pHashId是(進程名+進程ID)的md5值。 采集方式(Linux):通過執行ls -l /proc/pid/fd 可以查看數量。 采集方式(Windows):暫不支持。 |
≥0 | 云主機 | 1分鐘 |
| proc_running_count | 運行中進程數 | 該指標用于統計測量對象處于運行狀態的進程數。 采集方式(Linux):通過統計 /proc/pid/status 中Status值獲取每個進程的狀態,進而統計各個狀態進程總數。 采集方式(Windows):暫不支持。 |
≥0 | 云主機 | 1分鐘 |
| proc_idle_count | 空閑進程數 | 該指標用于統計測量對象處于空閑狀態的進程數。 采集方式(Linux):通過統計 /proc/pid/status 中Status值獲取每個進程的狀態,進而統計各個狀態進程總數。 采集方式(Windows):暫不支持。 |
≥0 | 云主機 | 1分鐘 |
| proc_zombie_count | 僵死進程數 | 該指標用于統計測量對象處于僵死狀態的進程數。 采集方式(Linux):通過統計 /proc/pid/status 中Status值獲取每個進程的狀態,進而統計各個狀態進程總數。 采集方式(Windows):暫不支持。 |
≥0 | 云主機 | 1分鐘 |
| proc_blocked_count | 阻塞進程數 | 該指標用于統計測量對象被阻塞的進程數。 采集方式(Linux):通過統計 /proc/pid/status 中Status值獲取每個進程的狀態,進而統計各個狀態進程總數。 采集方式(Windows):暫不支持。 |
≥0 | 云主機 | 1分鐘 |
| proc_sleeping_count | 睡眠進程數 | 該指標用于統計測量對象處于睡眠狀態的進程數。 采集方式(Linux):通過統計 /proc/pid/status 中Status值獲取每個進程的狀態,進而統計各個狀態進程總數。 采集方式(Windows):暫不支持。 |
≥0 | 云主機 | 1分鐘 |
| proc_total_count | 系統進程數 | 該指標用于統計測量對象的總進程數。 采集方式(Linux):通過統計 /proc/pid/status 中Status值獲取每個進程的狀態,進而統計各個狀態進程總數。 采集方式(Windows):通過psapi.dll系統進程狀態支持模塊得到進程總數。 |
≥0 | 云主機 | 1分鐘 |
TCP類監控指標說明
| 指標 | 指標名稱 | 指標含義 | 取值范圍 | 測量對象 | 監控周期(原始指標) |
|---|---|---|---|---|---|
| net_tcp_total | (Agent) TCP TOTAL | 該指標用于統計測量對象所有狀態的TCP連接數總和。單位:個l采集方式(Linux):通過/proc/net/tcp文件獲取到所有狀態的TCP連接,再統計每個狀態的連接數量。l采集方式(Windows):通過WindowsAPI GetTcpTable2獲取。 | ≥ 0 | 云主機 | 1分鐘 |
| net_tcp_established | (Agent) TCP ESTABLISHED | 該指標用于統計測量對象處于ESTABLISHED狀態的TCP連接數量。單位:個l采集方式(Linux):通過/proc/net/tcp文件獲取到所有狀態的TCP連接,再統計每個狀態的連接數量。l采集方式(Windows):通過WindowsAPI GetTcpTable2獲取。 | ≥ 0 | 云主機 | 1分鐘 |
| net_tcp_sys_sent | (Agent) TCP SYS_SENT | 該指標用于統計測量對象處于請求連接狀態的TCP連接數量。單位:個l采集方式(Linux):通過/proc/net/tcp文件獲取到所有狀態的TCP連接,再統計每個狀態的連接數量。l采集方式(Windows):通過WindowsAPI GetTcpTable2獲取。 | ≥ 0 | 云主機 | 1分鐘 |
| net_tcp_sys_recv | (Agent) TCP SYS_RECV | 該指標用于統計測量對象服務器端收到的請求連接的TCP數量。單位:個l采集方式(Linux):通過/proc/net/tcp文件獲取到所有狀態的TCP連接,再統計每個狀態的連接數量。l采集方式(Windows):通過WindowsAPI GetTcpTable2獲取。 | ≥ 0 | 云主機 | 1分鐘 |
| net_tcp_fin_wait1 | (Agent) TCP FIN_WAIT1 | 該指標用于統計測量對象客戶端主動關閉且沒有收到服務端ACK的TCP連接數量。單位:個l采集方式(Linux):通過/proc/net/tcp文件獲取到所有狀態的TCP連接,再統計每個狀態的連接數量。l采集方式(Windows):通過WindowsAPI GetTcpTable2獲取。 | ≥ 0 | 云主機 | 1分鐘 |
| net_tcp_fin_wait2 | (Agent) TCP FIN_WAIT2 | 該指標用于統計測量對象處于FIN_WAIT2狀態的TCP連接數量。單位:個l采集方式(Linux):通過/proc/net/tcp文件獲取到所有狀態的TCP連接,再統計每個狀態的連接數量。l采集方式(Windows):通過WindowsAPI GetTcpTable2獲取。 | ≥ 0 | 云主機 | 1分鐘 |
| net_tcp_close | (Agent) TCP CLOSE | 該指標用于統計測量對象關閉的或未打開的TCP連接數量。單位:個l采集方式(Linux):通過/proc/net/tcp文件獲取到所有狀態的TCP連接,再統計每個狀態的連接數量。l采集方式(Windows):通過WindowsAPI GetTcpTable2獲取。 | ≥ 0 | 云主機 | 1分鐘 |
| net_tcp_last_ack | (Agent) TCP LAST_ACK | 該指標用于統計測量對象被動關閉等待ACK報文的TCP連接數量。單位:個l采集方式(Linux):通過/proc/net/tcp文件獲取到所有狀態的TCP連接,再統計每個狀態的連接數量。l采集方式(Windows):通過WindowsAPI GetTcpTable2獲取。 | ≥ 0 | 云主機 | 1分鐘 |
| net_tcp_listen | (Agent) TCP LISTEN | 該指標用于統計測量對象處于LISTEN狀態的TCP連接數量。單位:個l采集方式(Linux):通過/proc/net/tcp文件獲取到所有狀態的TCP連接,再統計每個狀態的連接數量。l采集方式(Windows):通過WindowsAPI GetTcpTable2獲取。 | ≥ 0 | 云主機 | 1分鐘 |
| net_tcp_closing | (Agent) TCP CLOSING | 該指標用于統計測量對象處于服務端和客戶端同時主動關閉狀態的TCP連接數量。單位:個l采集方式(Linux):通過/proc/net/tcp文件獲取到所有狀態的TCP連接,再統計每個狀態的連接數量。l采集方式(Windows):通過WindowsAPI GetTcpTable2獲取。 | ≥ 0 | 云主機 | 1分鐘 |
| net_tcp_retrans | (Agent) TCP重傳率 | 該指標用于統計測量對象重新發送的報文數與總發送的報文數之間的比值。單位:百分比l采集方式(Linux):通過從/proc/net/snmp文件中獲取對應的數據,計算采集周期內數據的變化并做比得出。l采集方式(Windows):重傳率通過WindowsAPI GetTcpStatistics獲取 | 0-100% | 云主機 | 1分鐘 |
GPU類監控指標說明
| 指標 | 指標名稱 | 指標含義 | 取值范圍 | 測量對象 | 監控周期(原始指標) |
|---|---|---|---|---|---|
| gpu_status | gpu健康狀態 | 該指標用于統計虛擬機上GPU健康狀態,是一個綜合指標。該指標無單位。采集方式(Linux):通過調用GPU卡的libnvidia-ml.so.1庫文件獲取。采集方式(Windows):通過調用GPU卡的nvml.dll庫獲取。 | 0:代表健康1:代表亞健康2:代表故障 | GPU云主機 | 1分鐘 |
| gpu_usage_encoder | 編碼使用率 | 該指標用于統計該GPU的編碼能力使用率。單位:百分比采集方式(Linux):通過調用GPU卡的libnvidia-ml.so.1庫文件獲取。采集方式(Windows):通過調用GPU卡的nvml.dll庫獲取。 | 0-100% | GPU云主機 | 1分鐘 |
| gpu_usage_decoder | 解碼使用率 | 該指標用于統計該GPU的解碼能力使用率。單位:百分比采集方式(Linux):通過調用GPU卡的libnvidia-ml.so.1庫文件獲取。采集方式(Windows):通過調用GPU卡的nvml.dll庫獲取。 | 0-100% | GPU云主機 | 1分鐘 |
| gpu_volatile_correctable | 可糾正ECC錯誤數量 | 該指標用于統計該GPU重置以來可糾正的ECC錯誤數量,每次重置后歸0。單位:個。采集方式(Linux):通過調用GPU卡的libnvidia-ml.so.1庫文件獲取。采集方式(Windows):通過調用GPU卡的nvml.dll庫獲取。 | ≥ 0 | GPU云主機 | 1分鐘 |
| gpu_volatile_uncorrectable | 不可糾正ECC錯誤數量 | 該指標用于統計該GPU重置以來不可糾正的ECC錯誤數量,每次重置后歸0。單位:個采集方式(Linux):通過調用GPU卡的libnvidia-ml.so.1庫文件獲取。采集方式(Windows):通過調用GPU卡的nvml.dll庫獲取。 | ≥ 0 | GPU云主機 | 1分鐘 |
| gpu_aggregate_correctable | 累計可糾正ECC錯誤數量 | 該指標用于統計該GPU累計的可糾正ECC錯誤數量。單位:個采集方式(Linux):通過調用GPU卡的libnvidia-ml.so.1庫文件獲取。采集方式(Windows):通過調用GPU卡的nvml.dll庫獲取。 | ≥ 0 | GPU云主機 | 1分鐘 |
| gpu_aggregate_uncorrectable | 累計不可糾正ECC錯誤數量 | 該指標用于統計該GPU累計的不可糾正ECC錯誤數量。單位:個采集方式(Linux):通過調用GPU卡的libnvidia-ml.so.1庫文件獲取。采集方式(Windows):通過調用GPU卡的nvml.dll庫獲取。 | ≥ 0 | GPU云主機 | 1分鐘 |
| gpu_retired_page_single_bit | retired page single bit錯誤數量 | 該指標用于統計該GPU當前卡隔離的單比特頁的數量。單位:個采集方式(Linux):通過調用GPU卡的libnvidia-ml.so.1庫文件獲取。采集方式(Windows):通過調用GPU卡的nvml.dll庫獲取。 | ≥ 0 | GPU云主機 | 1分鐘 |
| gpu_retired_page_double_bit | retired page double bit錯誤數量 | 該指標用于統計該GPU當前卡隔離的雙比特頁的數量。單位:個采集方式(Linux):通過調用GPU卡的libnvidia-ml.so.1庫文件獲取。采集方式(Windows):通過調用GPU卡的nvml.dll庫獲取。 | ≥ 0 | GPU云主機 | 1分鐘 |
| gpu_performance_state | (Agent) 性能狀態 | 該指標用于統計測量對象當前的GPU性能狀態。該指標無單位。采集方式(Linux):通過調用GPU卡的libnvidia-ml.so.1庫文件獲取。采集方式(Windows):通過調用GPU卡的nvml.dll庫獲取。 | P0-P15、P32,P0表示最大性能狀態,P15表示最小性能狀態,P32表示狀態未知。 | GPU云主機 | 1分鐘 |
| gpu_usage_mem | (Agent) 顯存使用率 | 該指標用于統計測量對象當前的顯存使用率。單位:百分比采集方式(Linux):通過調用GPU卡的libnvidia-ml.so.1庫文件獲取。采集方式(Windows):通過調用GPU卡的nvml.dll庫獲取。 | 0-100% | GPU云主機 | 1分鐘 |
| gpu_usage_gpu | (Agent) GPU使用率 | 該指標用于統計測量對象當前的GPU使用率。單位:百分比采集方式(Linux):通過調用GPU卡的libnvidia-ml.so.1庫文件獲取。采集方式(Windows):通過調用GPU卡的nvml.dll庫獲取。 | 0-100% | GPU云主機 | 1分鐘 |
維度
| Key | Value |
|---|---|
| instance_id | 云主機ID |