故障診斷概述
更新時間 2025-06-23 20:03:28
最近更新時間: 2025-06-23 20:03:28
分享文章
本節介紹了故障診斷的用戶指南,云容器引擎提供一鍵故障診斷能力,包括Service診斷、節點診斷、Pod診斷、Ingress診斷,輔助定位集群中出現的異常問題。
前提條件
已創建容器集群,具體操作請參見 用戶指南 > 集群 > 新建集群 。
確保集群運行狀態處于運行中。
故障診斷功能介紹
云容器引擎提供的故障診斷功能如下表所示:
| 診斷項 | 說明 |
| Service診斷 | 診斷Service相關問題,例如Service后端就緒Pod、異常事件信息等。 |
| 節點診斷 | 診斷節點相關問題,例如K8s節點NotReady等。 |
| Pod診斷 | 診斷K8s Pod狀態異常相關的問題,例如Pod啟動失敗、Pod頻繁重啟等 。 |
| Ingress診斷 | 診斷Ingress相關流量配置問題。 |
配置故障診斷
注意
使用故障診斷功能時,系統將在您的集群節點上執行數據采集程序并收集檢查結果。采集的信息包括系統版本、負載、Docker、kubelet等運行狀態以及系統日志中的關鍵錯誤信息。數據采集程序不會采集您的業務信息及敏感數據。
配置Service、節點、Pod、Ingress等診斷操作類似。下文以配置節點診斷為例,介紹如何配置故障診斷功能。
登陸云容器引擎控制臺, 點擊左側導航欄中的集群,進入集群列表頁。
在集群列表中點擊需要配置故障診斷的集群,進入集群管理頁面。
在集群管理頁面導航欄中選擇運維管理 > 故障診斷,進入故障診斷頁面。
在故障診斷頁面,點擊節點診斷Tab頁面,在選擇節點面板,選擇需要診斷的節點名稱,點擊確定按鈕發起診斷。
在診斷列表頁面可查看診斷進展。診斷完成后,診斷頁面將顯示診斷結果。
查看診斷結果
在故障診斷頁面診斷列表的操作列,點擊目標診斷報告對應的診斷詳情,在診斷詳情頁面查看詳細診斷結果,診斷項狀態為異常時,需要確認,如果是引起集群異常的問題需要處理。
注意
根據集群配置,具體檢查項可能稍有不同。實際結果請以診斷頁面結果為準。