突破超大規模智算集群運維瓶頸 天翼云出席全球架構師峰會
2024-06-19
近日,ArchSummit全球架構師峰會在深圳隆重開幕,本次大會以“智能進階. 架構重塑”為主題,探討AI浪潮下(xia),企業架構如何適應大模型和云原生的時代趨勢,尋找既有應用成果又有成本效益的解決方案。國內外(wai)100余名頂尖專家齊聚一堂,圍繞AI、大模型、云原生等話題展開深度交流。天翼云云網產品事業部研發專家黃堅受邀(yao)參會,并在“智算平臺建設與應用實踐”專題會上發表主題演講,分享了天翼云在超大規模智算集群運維及管理方面的創新思路和實踐經驗。
天翼(yi)云(yun)云(yun)網(wang)產品事業(ye)部研發(fa)專家 黃堅
隨著大(da)模(mo)(mo)型(xing)風潮來襲,加快(kuai)建設超(chao)大(da)規模(mo)(mo)智算(suan)集群,已成為增強多元算(suan)力供給(gei)的(de)重要措施(shi)。與傳統(tong)云原生大(da)規模(mo)(mo)場景(jing)相比,超(chao)大(da)規模(mo)(mo)智算(suan)集群的(de)管理(li)復雜(za)度和難度更高。黃堅表示,當前,在充分發揮超(chao)大(da)規模(mo)(mo)智算(suan)集群的(de)算(suan)力方面(mian),整個行業(ye)還面(mian)臨著諸多挑戰:
l首先,智算業務與底層算力高耦合。在基于transformer衍生出來的智算生態中,要求最大化使用底層算力,這就要求從業者既要懂算法,又要懂算力,同時需要具備結合算法算力的工程化思維,從算子優化、算子融合、并行計算等多個方向提升算力的使用效率。
l其次,硬件無明確異常指標,定(ding)位難度(du)大(da)。雖然通過監控可(ke)以(yi)覆(fu)蓋一(yi)些(xie)明顯的軟(ruan)硬件問(wen)題(ti),但(dan)更(geng)多類(lei)似(si)于(yu)光模(mo)塊(kuai)故障等(deng)問(wen)題(ti),需要綜合光衰、溫度(du)、功(gong)耗等(deng)多個維度(du),并(bing)結(jie)合業務異常,才(cai)能實現準確定(ding)位。
l再(zai)次,日常管(guan)理復雜度高。超大(da)規模智算集群規模大(da)、數量(liang)多,如何實(shi)現(xian)百萬量(liang)級(ji)元器件的(de)系統化(hua)、模塊化(hua)、周期化(hua)管(guan)理,并與業務(wu)方(fang)進行有效協同,是運維的(de)難點。
作為云服務國家隊,天翼云加強核心技術自主研發,積極探索超大規模智算集群運維之道,不斷升級產品和生態矩陣,為AI開發(fa)者(zhe)提供“供得上、用得起、用得好”的智算服務。
在平臺層面,天翼云全新升級一體化(hua)計算加速平臺“云驍(xiao)”,“云驍”具備超大規模集群管理、運營和算力加速能力,可提供通智超一體化服務,集“異構計算+高速存儲+無損網絡+算力加速+高效運營”五大能力于一體,讓智算更快、更穩。
在算力層面,天翼云加速推進多層次智算算力布局,打造萬卡級超大規模智算中心,滿足快速增長的智算算力需求。目前,天翼云上海臨港國產萬卡算力池已正式啟用,這不僅是國內首個投入正式運營的國產單池萬卡液冷算力集群,也是業內領先的全國產化云智一體公共智算中心,創(chuang)新性采(cai)用網(wang)絡中(zhong)置、算力分層的“魔方”型組網(wang),實現了單一集(ji)群內萬卡(ka)高速互(hu)聯,滿足萬億(yi)級參數大(da)模型訓練所需的多機(ji)多卡(ka)并行、高吞吐(tu)無損通(tong)信等需求(qiu)。
未來,天翼云將持續堅持科技創新,深耕云智(zhi)一體,不斷夯實國云智(zhi)算底座,為數(shu)字(zi)(zi)經濟發展(zhan)與數(shu)字(zi)(zi)中國建設注入(ru)澎湃動能。