智算版產品概述
更新時間 2025-06-11 11:57:41
最近更新時間: 2025-06-11 11:57:41
分享文章
本節介紹了智算版容器產品概述。
產品定義
云容器引擎(智算版)是利用云原生架構和技術,在云容器引擎上快速定制化構建AI生產系統,提供智算場景下的調度策略(共享GPU調度、批作業調度、拓撲感知調度)、GPU/RDMA異構資源管理和GPU資源監控基礎能力,為用戶提供AI數據集管理,AI模型開發、訓練、評測,以及模型推理等服務。
產品架構
智算版作為云容器引擎的新規格和增值服務,基于云容器引擎提供管理和運行AI任務的能力,功能結構如下:
智算容器對底層IaaS各類異構資源做統一管理,通過拓撲感知,智能調度算法,實現AI任務調度、AI任務流編排,支持AI模型開發、訓練、推理等,可快速構建AI生產環境,降低AI使用門檻。
核心功能
| 功能模塊 | 功能項 | 功能點 | 智算版 |
|---|---|---|---|
| 異構資源管理 | 異構資源 | GPU | 支持 |
| NPU | 支持 | ||
| RDMA | 支持 | ||
| 監控 | GPU 利用率 | 支持 | |
| Job 監控 | 支持 | ||
| 共享GPU | eGPU | 支持 | |
| AI 任務調度 | 調度策略 | GANG | 支持 |
| FIFO | 支持 | ||
| Capacity | 支持 | ||
| Binpack | 支持 | ||
| Spread | 支持 | ||
| AI 框架 | 模型訓練 | PyTorch | 支持 |
| TensorFlow | 支持 | ||
| DeepSpeed | 支持 |
使用場景
AI 訓練
AI訓練需要大量的GPU算力,通過為集群添加物理GPU節點,開通對應規格的智算版容器,可快速部署訓練集并完成訓練任務,例如:大模型算法、AI框架算法等。
AI 推理
在已完成訓練的情況下,可以通過為集群添加GPU云主機,開通對應規格的智算版容器,可快速部署AI推理服務,提供AI服務,例如:AI客服,AI對話,AI文生圖,AI圖像處理等。