產品定義
更新時間 2025-01-14 15:08:31
最近更新時間: 2025-01-14 15:08:31
分享文章
本文帶您了解什么是一體化計算加速平臺·異構計算產品。
一體化計算加速平臺·異構計算是提供高性能計算、存儲、網絡服務的智能計算加速平臺,可提供異構算力的管理與調度,計算與存儲間的高效互聯,跨域監控和故障感知,一鍵自助診斷及智能加速套件等能力,通過本平臺可大幅提升數據加載、訓練和推理效率。
一體化計算加速平臺·異構計算底層主要由高性能計算、存儲和網絡組成:
- 計算側支持多種規格的高性能裸金屬,實現靈活、穩定、易用的高性能計算。
- 存儲側支持高性能并行文件存儲搭配RDMA無損網絡,存儲用戶讀寫數據時延低至亞毫秒。
- 網絡側支持TCP/IP和RDMA等多種通信協議,支持單服務器上連多個leaf交換機的組網方式,出現連接故障可自動切換。單機最大帶寬可達3.2T,實現超大規模、高效并行通信。
- 本平臺提供萬卡級別異構算力管理和調度,支持全棧國產化。
一體化計算加速平臺·異構計算包括資源管理、系統運維監控和加速套件等多個部分:
- 資源管理部分,標準資源組提供基于GPU物理機和GPU云主機的集群化開通與管理,擴展資源組在標準資源組基礎上提供全托管和高可用控制面板的標準Kubernetes集群服務,支持以計算節點作為Kubernetes集群的工作節點。支持一鍵提交訓練任務、日志查看、支持主流訓練框架(如:PyTorch、TensorFlow等)。
- 系統運維監控,提供從服務器檢測、RDMA性能檢測到集合通訊庫性能檢測的全方位一鍵式環境健康檢測,以及多維度資源使用情況的實時監控。
- 加速套件,支持數據及通信層面的加速能力。例如,支持高性能Checkpoint框架CTFlashCkpt,將訓練阻塞時間降低到最小;支持高性能通訊庫CTCCL,基于天翼云網絡進行深度的定制優化。