構筑智算引擎,天翼云“云驍”亮相GCOS全球云原生及開源峰會
2023-11-27
11月24日,GCOS全球云原生及開源峰會2023 · 北京站成功舉辦,天翼云科技有限公司資深技術專家李祥紅分享了天翼云智算基礎設施平臺“云驍”的產品能力及建設實踐,為產業加速構建智算基礎設施、推動行業智能化發展提供了參考。
今年以來,大模型應用的深入推進為人工智能產業帶來新機遇,人工智能產業呈現出應用場景多元化拓展、數據體量爆發式增長等態勢,這對支撐大規模智能計算的基礎設施提出更高要求。天翼云推出的智算基礎設施平臺“云驍”,依托天翼分布式架構云底座和海量計算、存儲、網絡資源,基于天翼云操作系統TeleCloudOS4.0,為用戶提供軟硬一體的解決方案,可實現高階算力供給、資源高效利用、多種計算能力服務一站式提供,大幅提升數據加載、訓練和推理效率,滿足智算、超算、通算多樣化算力服務需求。
“云驍”構建了高性能存儲與網絡服務。在存儲方面,“云驍”基于塊存儲服務、并行文件服務、分布式文件服務以及對象存儲服務,為客戶提供端到端的存儲解決方案。在網絡方面,“云驍”提供百GB帶寬RDMA無損網絡,實現計算節點以及計算存儲之間數據的快速傳遞;支持存算分離高速網絡自動化部署以及多租戶網絡隔離技術,實現數據安全隔離,保障用戶數據安全;支持多場景存儲訪問,滿足用戶對高速訪問并行文件存儲、云上對象存儲等多種應用場景的綜合需求。
整體來看,“云驍”具有算力整合、算力調度加速、算力運營管理等能力。在算力整合方面,“云驍”為模型開發、訓練、推理、算力加速、算力運維等場景提供軟硬一體解決方案;在算力調度加速方面,實現基于硬件網絡的拓撲感知調度、故障感知調度,從而提高通信效率和訓練效率,同時通過數據加速、單機計算加速和顯存優化、分布式并行加速、通信優化等加速技術,加速AI訓練推理效率,降低客戶成本;在算力運營管理方面,支持訓練和推理過程中的效率分析和優化,提供全面的日志和監控,方便用戶運維和全流程觀測。
為提升智算服務能力,“云驍”打造了先進的服務架構,可實現微服務拆分,滿足用戶便捷部署、高可用、負載均衡等需求;具備Region、AZ、集群、多租戶等多層級資源管理、供給能力,便于用戶調用資源;支持通過Web UI以及API等多樣化方式接入,提供個性化接入服務。此外,“云驍”內置全自研任務管理、調度系統,便于用戶進行統一管理和調度。其中,自研任務系統兼具多場景、全流程任務管理能力;自研任務控制器支持常用智算任務的編排控制;自研調度器支持多種調度策略,支撐用戶便捷化調用智算能力,賦能各類智慧應用建設。
目前,“云驍”已在多個行業場景落地應用,推動企業快速發展。在大模型行業,“云驍”為思必馳提供AI基礎設施層服務,賦能思必馳進一步縮短語音識別訓練時間周期并降低算力成本。此外,“云驍”還為人工智能研究機構、汽車等客戶進行大模型訓練和微調,助力降低科研創新成本。