智算套件
更新時間 2025-06-11 11:37:00
最近更新時間: 2025-06-11 11:37:00
分享文章
本節介紹了智算套件的用戶指南。
前提條件
已創建云容器引擎智算版集群。
智算套件介紹
| 組件名稱 | 組件介紹 |
|---|---|
| 智能調度 | 為集群提供智能任務調度策略,可支持Gang、Capacity、Binpack/Spread和Queue等智能調度。 |
| 日志 | 為集群的系統組件以及控制面組件收集日志。 |
| 彈性訓練 | 為集群提供AI任務接入,兼容主流AI框架和工具,包括TensorFlow、PyTorch、Horovod、Spark等。 |
| 監控 | 為集群提供硬件監控能力,可采集GPU/NPU,顯存等,支持可視化查看GPU的分配、使用和健康狀態。 |
| 存儲 | 為集群容器提供掛載HPFS和ZOS的能力。 |
| 網絡 | 為集群容器提供使用RDMA網絡的能力,包括IB和RoCE。 |
智算套件安裝/卸載
訂購智算版集群,默認安裝智算套件。
您可根據需要選擇控制臺卸載組件,例如卸載網絡組件。
卸載完成后刷新頁面,網絡組件顯示未部署狀態。
點擊部署按鈕,可重新部署對應組件。