CCE配合AOM對集群進行全方位的監控,在創建節點時會默認安裝AOM的ICAgent(在集群kube-system命名空間下名為icagent的DaemonSet),ICAgent默認采集集群底層資源以及運行在集群上負載的監控數據;另外,ICAgent還能采集負載的自定義指標監控數據。
- 資源監控指標
資源基礎監控包含CPU/內存/磁盤等,具體請參見資源監控指標。您可以在CCE控制臺從集群、節點、工作負載等維度查看這些監控指標數據,也可以在AOM中查看。
- 自定義指標
ICAgent采集應用程序中的自定義指標并上傳到AOM,具體使用方法請參見自定義監控。
資源監控指標
在CCE控制臺,可以查看如下指標。
表 資源監控指標
| 監控指標 | 指標含義 |
|---|---|
| CPU分配率 | 分配給工作負載使用的CPU占比。 |
| 內存分配率 | 分配給工作負載使用的內存占比。 |
| CPU使用率 | CPU使用率。 |
| 內存使用率 | 內存使用率。 |
| 磁盤使用率 | 磁盤使用率。 |
| 下行速率 | 一般指從網絡下載數據到節點的速度,單位KB/s。 |
| 上行速率 | 一般指從節點上傳網絡的速度,單位KB/s。 |
| 磁盤讀取速率 | 每秒從磁盤讀出的數據量,單位KB/s。 |
| 磁盤寫入速率 | 每秒寫入磁盤的數據量,單位KB/s。 |
在AOM控制臺,可以查看主機指標和容器實例的指標。
查看集群監控數據
單擊集群名稱進入集群,在左側導航欄單擊集群信息,在右側可看到集群所有節點(不含控制節點)近一小時的CPU指標和內存指標。

集群監控視圖會展示集群資源的監控狀態、集群所有節點的CPU/內存/磁盤的使用率,以及CPU和內存的分配率。
監控名詞解釋:
- CPU分配率 = 集群下運行的Pod CPU配額申請值(Request)之和 / 集群下所有節點(不含控制節點)的CPU可分配量之和
- 內存分配率= 集群下運行的Pod 內存配額申請值(Request)之和 / 集群下所有節點(不含控制節點)的內存可分配量之和
- CPU使用率 = 集群下所有節點(不含控制節點)上實際使用的CPU使用率的平均值。
- 內存使用率= 集群下所有節點(不含控制節點)上實際使用的內存使用率的平均值。
說明
節點資源(CPU或內存)可分配量=總量-預留值-驅逐閾值。詳情請參見節點預留資源計算公式。
CCE提供了控制節點的狀態、所在可用區、CPU使用率和內存使用率
查看節點監控數據
除了在集群監控界面查看所有節點監控數據外,您還可以查看單個節點的監控數據。單擊集群名稱進入集群,在左側導航欄選擇“節點管理”,在右側節點所在行單擊“監控”。
監控數據來源與AOM,可查看節點的監控數據包括CPU、內存、磁盤、網絡、GPU等。

查看工作負載的監控數據
工作負載的監控數據可以在工作負載詳情的監控頁面下查看。單擊集群名稱進入集群,在左側導航欄選擇“工作負載”,在右側工作負載所在行單擊“監控”。
監控數據來源與AOM,可查看工作負載的監控數據包括CPU、內存、網絡、GPU等。
監控名詞解釋:
- 工作負載CPU使用率 = 工作負載各個Pod中CPU使用率的最大值
- 工作負載內存使用率= 工作負載各個Pod中內存使用率的最大值
您還可以單擊“查看更多”直接跳轉到AOM控制臺查看工作負載的監控數據。
查看容器實例Pod的監控數據
在工作負載詳情頁面的實例列表頁簽中可以查看Pod的監控數據。
監控名詞解釋:
- Pod CPU使用率 = Pod實際使用的CPU核數 / 業務容器CPU核數限制值之和(未配置限制值時采用節點總量)
- Pod 內存使用率 = Pod實際使用的物理內存 / 業務容器物理內存限制值之和(未配置限制值時采用節點總量)