前言
資源配額是允許用戶對購買的專屬集群資源按照自身業務實際情況進行資源劃分的一種資源分配方式,凸顯“專款專用”的理念。比如,用戶可以基于作業類型維度將專屬集群的資源進行劃分:希望將專屬集群的部分資源專門交給訓練任務使用,因此可以創建一份資源配額專門交給訓練任務使用;還可以基于用戶公司部門/團隊維度進行劃分:將專屬集群的部分資源交給A部門/團隊使用,此時可以創建一份資源配額專供A部門/團隊使用;總之,資源配額是將專屬集群資源進行劃分的一種方式。資源配額的使用需要結合工作空間一起使用,需要將資源配額與對應工作空間進行關聯,這樣在工作空間里進行相關作業(如任務訓練、推理、開發機)時,就可以使用劃分給工作空間的資源配額的資源。工作空間是息壤訓推智算服務平臺的頂層邏輯概念,為企業和團隊提供統一的計算資源管理及人員權限管理能力,可以將工作空間類比成“辦公室”,“辦公室”就是員工工作的地方,允許有權進入“辦公室”的人員進行相關作業(如任務訓練、推理、開發機),在“辦公室”內作業時可以使用資源配額的資源,即資源配額的使用需要在關聯的工作空間進行作業時才能使用。
注:僅在杭州7資源池支持
創建資源配額
前置條件
已購買專屬集群(專屬資源)
當前賬號為IAM管理員
操作步驟
進入訓推智算服務平臺后,將集群切換為購買的專屬集群,然后在【管理中心】打開【資源配額】菜單,點擊【新增資源配額】按鈕,打開【新增資源配額】頁面。
在【新增資源配額】頁面,依次填寫【基礎信息】【資源配額】【算力借用】【調度策略】【關聯工作空間】等模塊內容。其中最重要的是【資源配額】【算力借用】【調度策略】【關聯工作空間】四個模塊,其介紹如下:
2.1資源配額:指的是分配給配額的資源量,由所屬集群、負載類型、實例規格、實例數四個字段組成。
所屬集群:即用戶購買的專屬集群,數據來源于用戶在訓推智算服務平臺頂部所選的專屬集群。
負載類型:即當前資源配額給哪些任務類型使用,目前有兩大任務類型,分別是:IDE、自定義訓練,若只選擇自定義訓練,則該資源配額只允許自定義訓練可以使用,IDE不可使用該資源配額的資源。
實例規格:選擇資源配額的實例規格,由專屬集群自身機器資源細分而來,分為1、2、4、8卡四種粒度的資源規格,如集群的資源為英偉達H800資源,則實例規格由H800*1卡、H800*2卡、H800*4卡、H800*8卡四種規格可選。
即所選資源規格的數量,如實例規格選擇的是H800*2卡,實例數選擇2,則資源配額總資源為H800*4卡。注:實例規格選擇的是H800*2卡,實例數選擇2和實例規格選擇的是H800*4卡,實例數選擇1,其總資源是一樣的,都是4張H800的GPU卡,此處的資源只代表資源配額的資源總量,提供不同的實例規格是為了更精細的分配資源配額的資源。例:實例規格選擇的是H800*2卡,實例數選擇2,并不代表任務在使用該配額時,只能選擇資源規格為H800*2卡的資源,而是可以在不超過資源配額總資源4張H800 GPU卡的情況下自由選擇,比如可以創建一個任務直接使用資源配額的全部資源H800*4卡,也可以創建4個任務資源使用量為H800*1卡的任務。
2.2算力借用:可以設置配額的權重、是否可以借用同一專屬集群下其他配額的閑置資源以及是否允許別的配額借用自身的閑置資源。由資源配額權重、閑時算力借用、獨享配額資源三個字段組成:
資源配額權重:允許填入1-100的整數,數字越大代表資源配額的重要性越高,同一集群下的資源配額權重不可重復。
閑時算力借用:默認關閉 ,開啟則代表允許使用當前資源配額的任務在資源配額所剩資源不足時,可以去借用同一專屬集群下其他資源配額的閑置資源,從而保證任務優先運行,被借用資源的資源配額,在借用資源的任務運行完成后,被借用的資源會自動歸還。若存在多個資源配額,則優先去借用資源配額權重低的資源配額的閑置資源。若資源配額權重較高建議開啟此設置,開啟后使用此資源配額運行的任務,在當前資源配額資源不足時,將不會排隊等待已運行的任務運行完畢后釋放資源配額的資源,而去借用其他配額的閑置資源,保證任務可以優先運行。注:可借用的最大資源量=專屬集群總資源-專屬集群未分配的資源(未分配給資源配額的資源)-當前資源配額的資源。
獨享資源配額:獨享資源配額是設置自身配額資源不被其他配額借用的開關,開啟后則不允許別的配額來借用,關閉則允許別的配額借用,若需要保證資源配額的資源隨時可用,不被其他配額借用資源,則建議開啟此開關。
2.3調度策略:指的是當提交給資源配額的任務由于配額資源不夠時導致任務排隊時,排隊任務的排隊邏輯,目前僅有一個先進先出策略,先進先出策略是指:按照任務提交時間升序進行排隊(提交時間最早的排在前),如果隊列中的第一個任務無法出隊(配額剩余資源>=第一個排隊任務所需資源時就會出隊,任務將會調度成功),系統將反復嘗試對第一個任務進行出隊操作,而不會跳過。
2.4關聯工作空間:只有關聯工作空間后,資源配額才可以在對應的工作空間內使用,由管理員、關聯工作空間兩個字段組成。
管理員:可以添加指定用戶為管理員,管理員除了能使用資源以外,還能管理該資源配額,具體包含管理用戶,編輯,更配、啟動/停止、刪除操作。
關聯工作空間:將該資源配額分配給指定工作空間,在該工作空間內進行作業時,可以使用該資源配額。
查看資源配額
在【資源配額】頁面可以查看創建的資源配額,可以看到資源配額的資源使用情況
查看資源配額信息核心需要關注這幾個功能:
查詢功能:可以通過右上角的查詢功能,按照資源配額名稱、所屬集群、工作空間名稱三個維度進行查詢
工作空間:查看該資源配額屬于那個工作空間,資源配額只有分配給工作空間后才可以在工作空間內使用
列表里的顯卡、CPU、MEM(內存)三個字段:這三個字段表示資源配額的資源使用情況,以顯卡字段為例:
鼠標hover到“詳情”按鈕,可以進一步查看詳情明細:
【編輯】操作:在列表右側【操作】列,點擊【編輯】按鈕,會彈出資源配額編輯窗口,可修改配額名稱、描述。
【更配】操作
前置條件:當前資源配額的狀態處于停止狀態
在列表右側【操作】列,點擊【更多】會出現下拉菜單,展示了具體的操作項,選擇【更配】,則進入更配頁面,可修改資源配額的負載類型、實例規格、實例數、資源配額權重、閑時算力借用、獨享配額資源、調度策略字段。更配操作需注意:
1)負載類型修改:當前配額支持的任務類型按最新修改生效,比如之前支持大模型評估,修改后不支持了,則后續評估任務選資源配額時,則不再展示該資源配額。
2)實例規格修改:若該資源配額的存量任務中存在正在運行的任務以及排隊中的任務,則不能修改,反之可以修改。
3)實例數修改:實例數調大,上限是:資源池內可支持的上限,比如資源池里還有100卡沒有劃分到隊列,則實例數最大就是100除以規格向下取整。若用戶設置的超過這個數,則給出報錯提示。實例數調小,下限是:資源配額里已分配的卡數與該配額里排隊中的任務中單任務所需的最大卡數的較小值。若用戶設置的低于這個數,則給出報錯提示。
【啟動/停止】操作
在列表右側【操作】列,點擊【更多】會出現下拉菜單,展示了具體的操作項,選擇【啟動/停止】,點擊即可,需注意:
1)停止資源配額:則不可以繼續往該資源配額里提交任務,存量任務還是會執行完。
2)啟動資源配額:則可以繼續向該隊列里提交任務。
【刪除】操作
前置條件:當前資源配額的狀態處于停止狀態
在列表右側【操作】列,點擊【更多】會出現下拉菜單,展示了具體的操作項,選擇【刪除】,點擊即可,需注意:
只有狀態是已停止的資源配額,才能進行刪除操作,且當用戶執行刪除操作時,系統會檢查當前配額的存量任務是否都執行完畢,若存在未運行結束的任務,則不能刪除,給出報錯提示,可等待任務執行完畢后再刪除,或者將任務遷移后再刪除。若不存未運行結束的任務,則可以刪除。資源配額刪除后,底層的資源釋放。
使用資源配額
前置條件
資源配額使用前,需要關聯工作空間,關聯工作空間共有兩種方式,一是創建配額時關聯,具體參見創建資源配額,二是在工作空間內關聯,具體參見工作空間關聯資源配額。
已進入資源配額所關聯的工作空間內
資源配額所選負載類型需要包含對應任務類型,如開發機,訓練任務
以創建訓練任務為例,在創建訓練任務的資源配置模塊,可以選擇資源配額來創建訓練任務,資源配額將為訓練任務提供所需資源,若當前工作空間關聯了多個資源配額,在此次可以自由選擇需要的資源配額。因為同一專屬集群下的資源配額之間可以互相借用資源(創建配額時可以設置是否允許借用別的配額資源以及是否允許別的資源配額借用自身資源),所以,只要同一專屬集群下的其他資源配額有足夠資源出借,即使訓練任務所需資源超出了當前資源配額的剩余資源,訓練任務也是可以借用其他配額資源來進行任務訓練的。
附表:資源配額與隊列的區別
資源配額和隊列都是對集群資源的一種自定義分配方式,具體區別如下:
類型 | 定義 | 區別 |
|---|---|---|
隊列 | 將集群資源劃分給隊列,提交給隊列的任務將使用volcano進行資源調度;同一集群下的隊列之間無法相互借用各自的閑置資源 |
1.默認集群自帶默認隊列,無需用戶創建 2.專屬集群資源的使用需要用戶創建隊列
1.在默認工作空間內關聯隊列,關聯后,在默認工作空間內作業可以使用隊列資源(僅默認工作空間可使用隊列)
1.所有資源池都支持 注:后續產品迭代會逐步取消隊列,建議使用資源配額 |
資源配額 | 將集群資源在邏輯層面進行了資源配額劃分,集群資源劃分與資源調度進行了解耦,提交給資源配額的任務將通過資源調度層進行資源調度;根據創建資源配額時的設置,同一集群下的資源配額之間可以進行閑置資源借用 |
1.專屬集群資源的使用需要用戶創建資源配額(默認集群無法使用資源配額,只有默認隊列)
1.在非默認工作空間內關聯資源配額,關聯后,在非默認工作空間內作業可以使用資源配額資源(僅非默認工作空間可使用資源配額)
1.僅杭州7資源池支持
|