任務調度策略
更新時間 2025-06-11 12:12:11
最近更新時間: 2025-06-11 12:12:11
分享文章
本節主要介紹了任務調度策略的用戶指南。
通過任務調度和異構資源調度,可提升智算集群的資源利用率和作業運行效率。
任務調度
任務調度為 AI/ML 任務提供了 Gang scheduling 和 Capacity Scheduling 調度能力。
| 功能 | 描述 |
|---|---|
| Gang scheduling | 在分布式計算場景需要一組Pod緊密協作,Gang scheduling策略可在并發系統中將多個相關聯的進程調度到不同處理器上同時運行。最主要的原則是保證所有相關聯的進程能夠同時啟動,防止部分進程的異常,避免整個關聯進程組的阻塞。這種All-or-Nothing調度場景,就被稱作Gang scheduling。CCSE提供Gang scheduling功能保障相關聯的進程的同時啟動和失敗,防止因部分失敗導致整個任務阻塞的情況。 |
| Capacity Scheduling | 在多用戶共用集群的環境,如果僅僅依賴于Kubernetes的ResourceQuota機制來劃分固定資源,由于每個用戶對資源的需求和使用模式各異,這往往會導致集群資源未能被充分利用,從而降低了資源的整體使用效率。為了解決這一問題,CCSE創新性地引入了彈性配額組的概念。這種Capacity Scheduling功能在保障各用戶獲得其所需資源的同時,通過資源的動態共享,有效地提升了整個集群的資源使用效率。 |
異構資源調度
GPU 共享調度、GPU/CPU 拓撲感知調度等能力。
| 功能 | 描述 |
|---|---|
| 共享GPU調度 | 通過實施GPU的共享調度,可以實現多個Pod共享使用GPU卡,可以有效減少對GPU資源的投入,常用于模型推理等場景。 |
| GPU/CPU拓撲感知調度 | 調度器基于異構資源的拓撲信息,比如GPU卡之間的NVLink、PcieSwitch等通信方式、CPU的NUMA拓撲結構等,調度的時候選擇最優的GPU/CPU組合,為工作負載提供更好的性能。 |