支持的監控指標
更新時間 2025-08-08 22:32:51
最近更新時間: 2025-08-08 22:32:51
分享文章
操作場景
天翼云分布式消息Kafka自集成了一整套監控方案,對Kafka實例的運行狀態進行日常監控,可以通過管理控制臺查看Kafka實例各項監控指標。各項監控指標可以分為實例監控、實例節點監控、主題監控、消費組監控和Connect監控,各項監控指標的具體細節如下表所示。
操作前提
已開通天翼云Kafka實例,且實例狀態為“運行中”
Kafka 實例是天翼云Ⅱ類資源池實例,目前Ⅱ類資源池包括:華東1、上海36、華北2、長沙42、武漢41、西安7、杭州7、青島20、西南1、西南2、廣州4、鄭州5、華南2等
監控指標
監控項的數據聚合周期為1分鐘,即1分鐘計算一次,計算出來每秒字節數。您可以將該數據理解為一分鐘內的平均值。
1. 實例監控
| 指標ID | 指標名稱 | 指標含義 | 取值范圍 | 單位 |
|---|---|---|---|---|
| current_brokers | 存活節點數 | 該指標用于統計Kafka實例中正常運行的實例節點數 | 0~50 | Count |
| current_topics | 主題數 | 該指標用于統計Kafka實例中已經創建的主題數量。 | 0~2000 | Count |
| current_partitions | 分區數 | 該指標用于統計Kafka實例中已經使用的分區數量。 | 0~2000 | Count |
| group_msgs | 堆積消息數 | 該指標用于統計Kafka實例中所有消費組中總堆積消息數。 | >=0 | Count |
| instance_bytes_in_rate | 生產流量 | 該指標用于統計Kafka實例中每秒生產的字節數。 | >=0 | MB/s |
| instance_bytes_out_rate | 消費流量 | 該指標用于統計Kafka實例中每秒生產的字節數。 | >=0 | MB/s |
| instance_messages_in_rate | 消息生產速率 | 該指標用于統計實例每秒生產的消息數。 | >=0 | Count/s |
| instance_messages_out_rate | 消息消費速率 | 該指標用于統計實例每秒消費的消息數。 注意:2025年1月及以后購買的實例,支持此監控項。 | >=0 | Count/s |
| instance_request_queue_size | 實例請求隊列長度 | 該指標用于統計實例請求隊列長度。 | >=0 | Count |
| instance_response_queue_size | 實例響應隊列長度 | 該指標用于統計實例響應隊列長度。 | >=0 | Count |
| instance_connection_usage | 實例連接數使用率 | 該指標用于統計實例連接數使用率 | 0~100 | % |
| instance_topic_usage | 實例用戶主題數使用率 | 該指標用于統計實例租戶主題使用率 | 0~100 | % |
| instance_partition_usage | 實例用戶主題分區數使用率 | 該指標用于統計實例租戶主題分區使用率 注意:2025年6月及以后購買的實例,支持此監控項。 | 0~100 | % |
| instance_group_usage | 實例用戶消費組數使用率 | 該指標用于統計實例租戶消費組使用率 注意:2025年6月及以后購買的實例,支持此監控項。 | 0~100 | % |
| instance_produce_limit | 實例生產限流次數 | 該指標用于統計實例生產限流次數 注意:2025年6月及以后購買的實例,支持此監控項。 | >=0 | Count |
| instance_consume_limit | 實例消費限流次數 | 該指標用于統計實例消費限流次數 注意:2025年6月及以后購買的實例,支持此監控項。 | >=0 | Count |
2. 實例節點監控
| 指標ID | 指標名稱 | 指標含義 | 取值范圍 | 單位 |
|---|---|---|---|---|
| broker_alive | 節點存活狀態 | 該指標用于統于Broker節點的運行狀態。 | 1:存活 0:離線 | Count |
| broker_data_size | 節點數據容量 | 該指標用于統計Broker節點當前的消息數據大小。 | >=0 | Byte |
| broker_bytes_in_rate | 生產流量 | 該指標用于統計Broker節點每秒生產的字節數。 | >=0 | Byte/s |
| broker_bytes_out_rate | 消費流量 | 該指標用于統計Broker節點每秒消費的字節數。 | >=0 | Byte/s |
| broker_messages_in_rate | 消息生產速率 | 該指標用于統計Broker節點每秒生產的消息數。 | >=0 | Count/s |
| broker_public_bytes_in_rate | 公網入流量 | 該指標用于統計Broker節點每秒公網訪問流入流量。 說明:該指標需要實例已開啟公網訪問,并且設置了彈性IP地址。 | >=0 | Byte/s |
| broker_public_bytes_out_rate | 公網出流量 | 該指標用于統計Broker節點每秒公網訪問流出流量。 說明:該指標需要實例已開啟公網訪問,并且設置了彈性IP地址。 | >=0 | Byte/s |
| request_queue_size | 請求隊列長度 | 該指標用于統計Broker節點處請求隊列的長度。 | >=0 | Byte |
| response_queue_size | 響應隊列長度 | 該指標用于統計Broker節點處響應隊列的長度。 | >=0 | Byte |
| broker_connections | 連接數 | 該指標用于統計Broker節點當前的TCP連接數。 | 0~65535 | Count |
| broker_public_connections | 公網連接數 | 該指標用于統計Broker節點當前的公網TCP連接數。 | 0~65535 | Count |
| broker_partition_count | 節點分區數 | 該指標用于統計Broker節點當前的主題分區數。 | 0~2000 | Count |
| broker_leader_count | leader分區數 | 該指標用于統計Broker節點當前的leader分區數。 | 0~2000 | Count |
| under_minisr_partition_count | 同步副本小于設置的ISR | 該指標用于統計Broker節點當前同步副本小于設置的ISR的分區數。 | 0~2000 | Count |
| under_replicated_count | 失效副本數 | 該指標用于統計Broker節點當前的失效副本數。 | 0~2000 | Count |
| broker_old_gc | OldGc頻率 | 該指標用于統計Broker節點當前Kafka進程的OldGc頻率。 | >=0 | Count/s |
| broker_young_gc | YoungGc頻率 | 該指標用于統計Broker節點當前Kafka進程的YoungGc頻率。 | >=0 | Count/s |
| broker_heap_usage | Kafka進程JVM堆內存使用率 | 該指標用于統計Broker節點當前Kafka進程的JVM堆內存使用率。 | 0~100 | % |
| cpu_usage | CPU使用率 | 該指標用于統計Broker節點虛擬機的CPU使用率。 | 0~100 | % |
| cpu_load | CPU核均負載 | 該指標用于統計Broker節點虛擬機CPU每個核的平均負載。 | 0~100 | % |
| data_disk_usage | 磁盤容量使用率 | 該指標用于統計Broker節點虛擬機磁盤容量的使用率。 | 0~100 | % |
| memory_usage | 內存使用率 | 該指標用于統計Broker節點虛擬機的內存使用率。 | 0~100 | % |
| network_transmit_rate | 網絡出流量 | 該指標用于統計Broker節點每秒網絡訪問流出流量。 | >=0 | Byte/s |
| network_receive_rate | 網絡入流量 | 該指標用于統計Broker節點每秒網絡訪問流入流量。 | >=0 | Byte/s |
| network_bandwidth_usage | 網絡帶寬使用率 | 該指標用于統計Broker節點虛擬機的網絡帶寬使用率。 注意:2024年8月及以后購買的實例,支持此監控項。 | >=0 | % |
| network_processor_idle | 網絡線程空閑率 | 該指標用于統計Broker節點Kafka服務的網絡線程空閑率 | 0~100 | % |
| disk_read_bytes_rate | 磁盤讀流量 | 該指標用于統計Broker節點虛擬機的磁盤讀流量 | >=0 | Byte/s |
| disk_write_bytes_rate | 磁盤寫流量 | 該指標用于統計Broker節點虛擬機的磁盤寫流量 | >=0 | Byte/s |
| disk_read_time | 磁盤平均讀操作耗時 | 該指標用于統計Broker節點虛擬機的磁盤在測量周期內平均每個讀IO的操作時長。 | >=0 | 毫秒 |
| disk_write_time | 磁盤平均寫操作耗時 | 該指標用于統計Broker節點虛擬機的磁盤在測量周期內平均每個寫IO的操作時長。 | >=0 | 毫秒 |
| network_bandwidth_in_usage | 網絡入帶寬使用率 | 該指標用于統計Broker節點網絡帶寬入流量使用率,使用率為網絡訪問流入流量與節點基準帶寬的比。 注意:2024年8月及以后購買的實例,支持此監控項。 | >=0 | % |
| network_bandwidth_out_usage | 網絡出帶寬使用率 | 該指標用于統計Broker節點網絡帶寬出流量使用率,使用率為網絡訪問流出流量與節點基準帶寬的比。 注意:2024年8月及以后購買的實例,支持此監控項。 | >=0 | % |
| broker_isr_expend | 節點ISR擴充次數 | 該指標用于統計Broker節點主題分區發生ISR擴充的次數 | >=0 | Count |
| broker_isr_shrink | 節點ISR縮小次數 | 該指標用于統計Broker節點主題分區發生ISR縮小的次數 | >=0 | Count |
| broker_produce_p95 | 節點生產P95時延 | 該指標用于統計Broker節點處理生產請求的P95時延 | >=0 | 毫秒 |
| broker_consume_p95 | 節點消費P95時延 | 該指標用于統計Broker節點處理消費請求的P95時延 | >=0 | 毫秒 |
| broker_produce_p999 | 節點生產P999時延 | 該指標用于統計Broker節點處理生產請求的P999時延 | >=0 | 毫秒 |
| broker_consume_p999 | 節點消費P999時延 | 該指標用于統計Broker節點處理消費請求的P999時延 | >=0 | 毫秒 |
| broker_produce_limit | 節點生產限流次數 | 該指標用于統計Broker節點生產限流次數 注意:2025年6月及以后購買的實例,支持此監控項。 | >=0 | Count |
| broker_consume_limit | 節點消費限流次數 | 該指標用于統計Broker節點消費限流次數 注意:2025年6月及以后購買的實例,支持此監控項。 | >=0 | Count |
3. 主題監控
| 指標ID | 指標名稱 | 指標含義 | 取值范圍 | 單位 |
|---|---|---|---|---|
| topic_bytes_in_rate | 生產流量 | 該指標用于統計主題每秒生產的字節數。 | >=0 | Byte/s |
| topic_bytes_out_rate | 消費流量 | 該指標用于統計主題每秒消費的字節數。 | >=0 | Byte/s |
| topic_messages_in_rate | 生產速率 | 該指標用于統計主題每秒生產的消息數。 | >=0 | Count/s |
| topic_data_size | 主題數據容量 | 該指標用于統計主題當前的消息數據大小。 | >=0 | Byte |
| topic_messages | 主題消息總數 | 該指標用于統計主題當前的消息總數。 | >=0 | Count |
| partition_messages | 分區消息數 | 該指標用于統計主題分區當前的消息總數。 | >=0 | Count |
| produced_messages | 生產消息數 | 該指標用于統計主題分區當前生產的消息總數。 | >=0 | Count |
| topic_bytes_reject_rate | 生產拒絕流量 | 該指標用于統計主題每秒生產失敗的字節數。 | >=0 | Byte/s |
| topic_messages_out_rate | 消費速率 | 該指標用于統計主題每秒消費的消息數。 注意:2025年1月及以后購買的實例,支持此監控項。 | >=0 | Count/s |
| topic_produce_rate | Produce請求速率 | 該指標用于統計主題每秒Produce請求的個數。 | >=0 | Count/s |
| topic_fetch_rate | Fetch請求速率 | 該指標用于統計主題每秒Fetch請求的個數。 | >=0 | Count/s |
| topic_produce_fail_rate | Produce失敗請求速率 | 該指標用于統計主題每秒Produce請求失敗的個數。 | >=0 | Count/s |
| topic_fetch_fail_rate | Fetch失敗請求速率 | 該指標用于統計主題每秒Fetch請求失敗的個數。 | >=0 | Count/s |
| topic_produce_limit | 主題生產限流次數 | 該指標用于統計主題每秒生產限流次數 注意:2025年6月及以后購買的實例,支持此監控項。 | >=0 | Count/s |
| topic_consume_limit | 主題消費限流次數 | 該指標用于統計主題每秒消費限流次數 注意:2025年6月及以后購買的實例,支持此監控項。 | >=0 | Count/s |
4. 消費組監控
| 指標ID | 指標名稱 | 指標含義 | 取值范圍 | 單位 |
|---|---|---|---|---|
| partition_messages_consumed | 分區已消費消息數 | 該指標用于統計當前消費組指定主題分區已經消費的消息總數。 | >=0 | Count |
| partition_messages_remained | 分區可消費消息數 | 該指標用于統計當前消費組指定主題分區還可以消費的消息總數。 | >=0 | Count |
| topic_messages_consumed | 主題已消費消息數 | 該指標用于統計當前消費組指定主題已經消費的消息總數。 | >=0 | Count |
| topic_messages_remained | 主題可消費消息數 | 該指標用于統計當前消費組指定主題還可以消費的消息總數。 | >=0 | Count |
| consumer_messages_consumed | 消費組已消費消息數 | 該指標用于統計當前消費組已經消費的消息總數。 | >=0 | Count |
| consumer_messages_remained | 消費組可消費消息數 | 該指標用于統計當前消費組還可以消費的消息總數。 | >=0 | Count |
| consumer_rebalance_times | 消費組重平衡次數 | 該指標用于統計當前消費組重平衡次數。 | >=0 | Count |
| consumer_messages_consumed_rate | 消費組消費速率 | 該指標用于統計消費組每秒消費的消息數。 注意:2025年1月及以后購買的實例,支持此監控項。 | >=0 | Count/s |
| topic_messages_consumed_rate | 主題消費速率 | 該指標用于統計主題每秒消費的消息數。 注意:2025年1月及以后購買的實例,支持此監控項。 | >=0 | Count/s |
| messages_consumed_rate | 分區消費速率 | 該指標用于統計主題分區每秒消費的消息數。 注意:2025年1月及以后購買的實例,支持此監控項。 | >=0 | Count/s |
5. Connect監控
| 指標ID | 指標名稱 | 指標含義 | 取值范圍 | 單位 |
|---|---|---|---|---|
| kafka_wait_synchronize_data | 待同步數據量 | 該指標用于統計Kafka實例中待同步的數據量。 注意:2025年1月及以后購買的Connect實例,支持此監控項。 | >=0 | Count |
| kafka_synchronize_rate | 數據同步速率 | 該指標用于統計Kafka實例中每分鐘同步的數據量。 注意:2025年1月及以后購買的Connect實例,支持此監控項。 | >=0 | Count/s |
| task_status | 任務狀態 | 該指標用于統計當前任務的狀態。 注意:2025年1月及以后購買的Connect實例,支持此監控項。 | 0:任務異常 1:任務正常 | Count |
| message_delay | 消息時延 | 該指標用于統計消息到達源端時間與到達目標端的時間差。 注意:2025年1月及以后購買的Connect實例,支持此監控項。 | >=0 | ms |