虛擬節點使用L20 GPU最佳實踐
更新時間 2025-10-20 17:45:49
最近更新時間: 2025-10-20 17:45:49
分享文章
本文為您介紹如何通過虛擬節點使用L20 GPU。
主流的AI訓練、推理等應用普遍采用容器化方式運行,這類任務對GPU算力需求大,且通常需要短時間內快速申請大量計算資源,并在任務完成后及時釋放,以提升資源利用效率、控制成本。在已經創建云容器引擎集群的基礎上,您可以通過部署虛擬節點(基于VK)來調用彈性容器實例,實現按需、彈性地調度GPU算力資源。
推薦您使用云容器引擎集群對接ECI GPU實例進行彈性擴容,從而高效、靈活地滿足算力擴展需求。以下以擴容L20機型為例,指導您如何通過虛擬節點使用L20 GPU 彈性容器實例。
操作步驟
在彈性容器實例控制臺左側導航欄中選擇“容器組”,進入容器組列表頁。
點擊“創建彈性容器組”,進入彈性容器實例訂購頁,確認 L20 資源可售賣的可用區以及規格名稱。
進入云容器引擎產品控制臺,選擇想要擴容L20 GPU彈性容器實例的集群。
在左側導航欄中選擇“節點”,進入節點列表頁,點擊“創建虛擬節點”。
在創建虛擬節點頁面,選擇第二步中仍未售罄的可用區。
等待虛擬節點狀態正常。
進入工作負載頁面,選擇“新增YAML”,最后點擊“確定”。
通過 annotations 指定 ECI 規格。例如下面的 k8s.daliqc.cn/eci-use-specs: pn8i.4x.large.8
通過 nodeName 指定工作負載調度到虛擬節點。例如下面 nodeName: vnd-4klpjmam8j8hf57m-cn-huadong1-jsnj2a-public-ctcloud
通過 resources 指定工作負載的資源需求。其中,GPU指定為 daliqc.cn/gpu: 1
apiVersion: apps/v1
kind: Deployment
metadata:
name: cuda-l20
namespace: default
labels:
app: cuda
spec:
replicas: 1
selector:
matchLabels:
app: cuda
template:
metadata:
annotations:
k8s.daliqc.cn/eci-use-specs: pn8i.4xlarge.8
labels:
app: cuda
spec:
containers:
- name: cuda
image: docker.io/library/cuda:11.4.3-base-ubuntu20.04
imagePullPolicy: IfNotPresent
command:
- /bin/bash
- '-c'
args:
- nvidia-smi -L; sleep infinity
resources:
requests:
memory: "128Gi"
cpu: "16"
daliqc.cn/gpu: 1
limits:
memory: "128Gi"
cpu: "16"
daliqc.cn/gpu: 1
nodeName: vnd-4klpjmam8j8hf57m-cn-huadong1-jsnj2a-public-ctcloud等待工作負載 Running。