一、CCE集群創建失敗的原因與解決方法?
概述
本文主要介紹在CCE集群創建失敗時,如何查找失敗的原因,并解決問題。
詳細信息
集群創建失敗的原因包括:
- ntpd沒安裝或者安裝失敗、k8s組件預校驗不過、磁盤分區錯誤等,目前只能嘗試重新創建,定位方法請參見定位失敗原因。
- 確認帳號是否欠費:帳號必須是未欠費狀態才可以購買資源。
定位失敗原因
您也可以參考以下步驟,通過集群日志查看集群創建失敗的報錯信息,然后根據相應的解決方法解決問題:
步驟 1 登錄CCE控制臺,單擊集群列表上方的“操作記錄”查看具體的報錯信息。
步驟 2 單擊“操作記錄”窗口中失敗狀態的報錯信息。
步驟 3 根據上一步獲取的失敗報錯信息自行解決后,嘗試重新創建集群。
二、集群的管理規模和控制節點的數量有關系嗎?
集群管理規模是指:當前集群支持管理的最大節點數。若選擇50節點,表示當前集群最多可管理50個節點。
針對不同的集群規模,控制節點的規格不同,但數量不受管理規模的影響。
集群的多控制節點模式開啟后將創建三個控制節點,在單個控制節點發生故障后集群可以繼續使用,不影響業務功能。
三、當集群狀態為“不可用”時,如何排查解決?
當集群狀態顯示為“不可用”時,請參照如下方式來排查解決。
排查思路
以下排查思路根據原因的出現概率進行排序,建議您從高頻率原因往低頻率原因排查,從而幫助您快速找到問題的原因。
如果解決完某個可能原因仍未解決問題,請繼續排查其他可能原因。
- 排查項一:安全組是否被修改
- 排查項二:手動檢查LB是否有監聽器和后端服務器組殘留
排查思路


排查項一:安全組是否被修改
步驟 1 登錄控制臺,選擇“服務列表 > 網絡 > 虛擬私有云 VPC”,單擊左側導航欄的“訪問控制 > 安全組”,找到集群控制節點的安全組。
控制節點安全組名稱為:集群名稱-cce- control -編號。
步驟 2 單擊安全組名稱,進入詳情頁面,請確保集群控制節點的安全組規則的正確性。
排查項二:手動檢查LB是否有監聽器和后端服務器組殘留
模擬異常狀態:
創刪負載均衡(LoadBalancer,簡稱LB)類型service的任務執行時發生集群異常,恢復后會出現service刪除成功,但是LB的監聽器和后端服務器組殘留。
步驟 1 預創建CCE集群,在集群內使用nginx官方鏡像創建工作負載、預置lb、各類型service、ingress等資源。
步驟 2 保持集群正常運行,nginx負載處于穩態。
步驟 3 持續間隔每20s創建刪除10個lb類型的service。
步驟 4 集群出現注入異常:如etcd實例不可用、集群休眠等問題。
問題原因:
異常注入時正在進行創建或刪除過程中的lb-service被刪除了,但是elb內有監聽器和后端服務器組殘留。
解決方案:
可以手動清理殘留的監聽器和后端服務器組。
步驟 5 登錄控制臺,單擊服務列表中“網絡 > 彈性負載均衡 ELB”。
步驟 6 在負載均衡器列表中,單擊對應的ELB名稱進入詳情頁,在“監聽器”頁簽下找到殘留的監聽器,單擊后方的刪除圖標進行刪除操作。
步驟 7 在“后端服務器組”頁簽下找到殘留的后端服務器組,單擊后方的刪除圖標進行刪除操作。
四、集群刪除失敗:彈性網卡殘留
CCE在刪除集群時,會連接集群的kube-apiserver查詢集群對接的周邊資源信息,例如Turbo集群對接的彈性網卡/彈性輔助網卡等,當CCE集群的狀態為不可用,凍結,休眠等狀態時,刪除集群有可能會出現查詢資源失敗而導致集群刪除失敗的情況。
故障現象
刪除集群失敗。


問題根因
該場景引起的原因是連接集群的kube-apiserver查詢集群對接的彈性網卡/彈性輔助網卡失敗導致無法刪除彈性網卡,CCE創建的用于彈性網卡/彈性輔助網卡的安全組由于彈性網卡殘留刪除時報錯了409,最終導致了集群刪除失敗。
操作步驟
步驟 1 復制報錯信息中的資源ID f5b0282b-6306-4a4b-a64d-bd32e26c3846,進入到vpc服務的安全組界面,根據ID過濾安全組。


步驟 2 單擊進入安全組詳情界面,選擇關聯實例頁簽。


導致安全組殘留的原因是關聯了彈性網卡實例,輔助彈性網卡實例,單擊其他頁簽,可以看到有殘留的彈性網卡,將殘留的彈性網卡(輔助彈性網卡會自動刪除)刪除。


步驟 3 在彈性網卡界面將上一步查詢到的網卡刪除。
可以用ID過濾需要刪除的彈性網卡,也可以通過集群ID的名稱過濾需要刪除的彈性網卡,如示例中殘留的集群ID,在彈性網卡界面通過名稱過濾。
步驟 4 清理完成后,到安全組確認clusterName-cce-eni-xxx的安全組已經沒有關聯的實例了,然后到CCE控制臺就能正常刪除集群了。
五、CCE集群升級時,升級集群插件失敗如何排查解決?
概述
本文主要介紹在CCE在升級集群時,如何查找插件升級失敗的原因,并解決問題。


操作步驟
步驟 1 插件升級失敗后,請優先進行重試。若重試不成功,則根據后續步驟排查問題。
步驟 2 在升級界面顯示失敗后,請退出集群升級頁面,前往“插件管理”界面查看插件的詳細狀態。針對異常的插件,單擊插件名稱查看詳情。


步驟 3 在插件運行實例的詳情界面,單擊“事件”查看異常實例的信息。


步驟 4 根據具體的異常信息進行相應處理,比如嘗試刪除未啟動的實例讓其重啟等。


步驟 5 處理成功后,插件狀態會變為運行中,需要保證所有插件狀態都處于運行中。


步驟 6 此時進入集群升級界面,再次單擊“重試”按鈕即可。


六、使用CCE需要關注哪些配額限制?
云容器引擎CCE配額 只限制了集群個數 ,但是使用CCE時也會使用其他云服務,包括:彈性云服務器、云硬盤、虛擬私有云、彈性負載均衡、容器鏡像服務等。
什么是配額?
為防止資源濫用,平臺限定了各服務資源的配額,對用戶的資源數量和容量做了限制。如您最多可以創建多少臺彈性云服務器、多少塊云硬盤。
如果當前資源配額限制無法滿足使用需要,您可以申請擴大配額。
怎樣查看我的配額?
- 登錄管理控制臺。
- 單擊管理控制臺左上角的

,選擇區域和項目。 - 在頁面右上角,單擊
“我的配額”。系統進入“服務配額”頁面。
我的配額


- 您可以在“服務配額”頁面,查看各項資源的總配額、及使用情況。
如果當前配額不能滿足業務要求,請單擊“申請擴大配額”。
如何申請擴大配額?
- 登錄管理控制臺。
- 在頁面右上角,單擊“我的配額”。系統進入“服務配額”頁面。
- 單擊“申請擴大配額”。
- 在“新建工單”頁面提交工單,根據您的需求,填寫相關參數。其中,“問題描述”項請填寫需要調整的內容和申請原因。
- 填寫完畢后,勾選協議并單擊“提交”。