2024年世界人工智能大會隆重召開,天翼云以科技創新驅動高質量發展
2024-07-06
7月5日,2024世界(jie)人(ren)工(gong)智(zhi)(zhi)能大會期(qi)間,中國電(dian)信(xin)(xin)星辰(chen)人(ren)工(gong)智(zhi)(zhi)能生態論(lun)壇在上海(hai)世博中心啟(qi)幕。論(lun)壇以(yi)“星辰(chen)注(zhu)智(zhi)(zhi),煥新領航”為(wei)主題(ti),圍繞(rao)人(ren)工(gong)智(zhi)(zhi)能技術(shu)發展(zhan)趨勢,分享中國電(dian)信(xin)(xin)與產業各界(jie)在人(ren)工(gong)智(zhi)(zhi)能領域的創(chuang)新與實踐。天翼云(yun)科(ke)(ke)技有限(xian)公(gong)司董事長、總經理胡志強出席,并發表演講《云(yun)智(zhi)(zhi)一(yi)體 國云(yun)煥新》。他(ta)表示,人(ren)工(gong)智(zhi)(zhi)能已成為(wei)新一(yi)輪科(ke)(ke)技革命(ming)和產業變革的核心驅動(dong)力(li)量(liang)。天翼云(yun)堅持科(ke)(ke)技創(chuang)新驅動(dong)高質量(liang)發展(zhan),以(yi)豐富(fu)的智算資源供給、強大的智算服務(wu)能力(li)和開放的模型應(ying)用(yong)生態,為數(shu)字經濟發展注入新動能。
在智算資源供給方面,天翼云(yun)自建了豐富、多樣化的智能算力資源(yuan)。圍繞(rao)AI產業集聚地區,天(tian)翼云規(gui)劃(hua)建(jian)設北(bei)京、上(shang)海、廣東(dong)、浙(zhe)江、安徽(hui)人(ren)工智能公共(gong)算力中心(xin),提供訓推一體化能力,并先后建(jian)成上(shang)海、北(bei)京萬卡池,這也是全國(guo)最早建(jian)成并真正投產運(yun)行(xing)的兩個(ge)國產化、全(quan)液(ye)冷、單(dan)集群萬卡公共(gong)智算中(zhong)心;在清(qing)潔能源集聚地,建設(she)內蒙(meng)、貴州、寧(ning)夏智算中(zhong)心,提(ti)供(gong)綠(lv)色算力(li)(li);此外,天翼(yi)云(yun)還在31省預部署AI云(yun)電腦和(he)推(tui)理池(chi),在280多(duo)個地市的一城一池(chi)節點和(he)1000多(duo)個邊緣(yuan)節點按需下沉(chen)AI云(yun)電腦算力(li)(li)和(he)推(tui)理算力(li)(li);提(ti)供(gong)國內外主流的GPU、NPU算力(li)(li)方案,面向不同(tong)場景為用(yong)戶提(ti)供(gong)公有云(yun)、私有云(yun)、邊緣(yuan)云(yun)多(duo)種形(xing)態服務。
另(ling)一方面,天翼云(yun)匯聚(ju)社(she)會多方算(suan)力(li),通過高(gao)效(xiao)調度實現算力供需(xu)匹配。天翼云(yun)重(zhong)點研發算力分發網(wang)絡平臺“息壤(rang)”,從算力統一接入、算數網(wang)一體化調度、算力(li)簡(jian)便易用三方(fang)面(mian)進行技術創新,實現裸(luo)算力云化接入(ru)、算力更(geng)泛在、算力選擇和應(ying)用(yong)部署(shu)更(geng)簡單(dan),促(cu)進算力互(hu)聯互(hu)通、高效利用(yong)、供需匹配(pei)。
基(ji)于此,息壤可賦能三(san)大算(suan)力(li)(li)(li)(li)服務場景。一(yi)(yi)是(shi)天翼云(yun)(yun)自營的公(gong)共算(suan)力(li)(li)(li)(li)服務平臺,目(mu)前已接(jie)(jie)入(ru)多(duo)(duo)(duo)家算(suan)力(li)(li)(li)(li)伙(huo)伴,擴(kuo)大了天翼云(yun)(yun)算(suan)力(li)(li)(li)(li)規模和品(pin)類,滿足公(gong)有云(yun)(yun)客(ke)戶的多(duo)(duo)(duo)元算(suan)力(li)(li)(li)(li)需求;二是(shi)行業(ye)算(suan)力(li)(li)(li)(li)互聯網(wang),如(ru)國(guo)資(zi)央(yang)企(qi)智算(suan)云(yun)(yun)管理(li)調度(du)平臺,接(jie)(jie)入(ru)多(duo)(duo)(duo)家央(yang)企(qi)算(suan)力(li)(li)(li)(li),提(ti)高(gao)國(guo)資(zi)監(jian)管水平,提(ti)升算(suan)力(li)(li)(li)(li)利(li)用(yong)率;三(san)是(shi)城市算(suan)力(li)(li)(li)(li)互聯網(wang),通過整合(he)區域(yu)內多(duo)(duo)(duo)方算(suan)力(li)(li)(li)(li),結合(he)產業(ye)政策,實現一(yi)(yi)體化統籌調度(du)算(suan)力(li)(li)(li)(li),目(mu)前已在多(duo)(duo)(duo)個區域(yu)成(cheng)功實踐。
當前,基礎大模型訓練呈現參數越來越大的趨勢,在超大規模參數的基礎大模型開發訓練場景中,對AI基礎設施的算力、性能、穩定性都提出了更高要求。天翼云基于單集群萬卡智算中心,搭載一體化計算加速平臺云驍和一站式智算服務平臺慧聚,從基礎設施到平臺,構建了基礎大模型訓練解決方案。
在(zai)大算(suan)(suan)力(li)(li)需求(qiu)方(fang)(fang)面,天(tian)翼云建設了可(ke)橫向擴展的(de)(de)PB級HPFS,滿足存(cun)儲要求(qiu);組建了低延(yan)時的(de)(de)超大規模RDMA網絡,滿足基(ji)礎算(suan)(suan)力(li)(li)需求(qiu);同時,通過(guo)(guo)計算(suan)(suan)、內存(cun)、通信多維優化,提(ti)升(sheng)綜(zong)合算(suan)(suan)效。在(zai)性能方(fang)(fang)面,天(tian)翼云升(sheng)級AI框架,編譯效率翻番,通過(guo)(guo)拓撲感知調度,集合通信效率提(ti)升(sheng)顯著,多種加速(su)優化后(hou)將國產算(suan)(suan)力(li)(li)的(de)(de)綜(zong)合算(suan)(suan)效比提(ti)升(sheng)到了行(xing)業(ye)可(ke)比水平。在(zai)穩定性方(fang)(fang)面,故障(zhang)訓(xun)前發現,結(jie)合斷點(dian)續訓(xun)能力(li)(li),實(shi)現訓(xun)練任務(wu)長期穩定、高可(ke)用運行(xing)。
構建國(guo)產(chan)萬卡(ka)(ka)集(ji)群(qun)不是一萬張卡(ka)(ka)的(de)簡單堆疊,而是一項(xiang)高(gao)度復雜的(de)系統工程,需要解決超大規模的(de)組網互(hu)聯、高(gao)效率的(de)集(ji)群(qun)計算、長(chang)期(qi)穩定性和(he)高(gao)可用性等眾多技術(shu)難題。天翼(yi)云基于國(guo)產(chan)萬卡(ka)(ka)智(zhi)算集(ji)群(qun)和(he)自(zi)研智(zhi)算平臺,已具備支撐萬億(yi)參(can)數基礎大模型訓練(lian)的(de)能力。
在行業大模型訓推過程中,普遍存在著訓練部署工程化復雜、訓推效率有待提高、訓練中斷頻繁等挑戰。面向行業大模型訓推場景,天翼云提供一站式智算服務。其中,“慧聚”平臺預置行業數據集、納管國內外主流AI加速硬件、并預置基于國產算力的基礎大模型等全棧工具鏈能力,大模型精調場景通過選數據、選硬件、選模型3步,即可實現大模型訓推;通過自研AI框架、3D并行加速、自研訓練加速庫、容器調度優化等核心技術,大幅提升訓練效率;通過模型量化壓縮、自研推理加速算子庫、自硏AI推理加速框架等核心技術,推理效率也明顯提升;通過全鏈路故障分鐘級檢測、定位、告警,全鏈路日志監控與可視化、斷點續訓快速恢復等核心技術,實現訓推過程全鏈路監控。
基于技術創新與項目經驗(yan)沉(chen)淀,天翼云(yun)打(da)造了(le)全(quan)面的平臺化能力和(he)解決方案,保(bao)障客戶高(gao)效、便(bian)捷、穩(wen)定、安全(quan)使用智(zhi)算服務(wu)。
在模型應用(yong)生(sheng)態建(jian)設(she)方面,天(tian)翼(yi)云在(zai)業界率(lv)先發布(bu)AI云電腦。AI云(yun)電(dian)腦具有算(suan)力更強大(da)、更彈性(xing)、更安全、更優惠(hui)的優勢,降低大(da)眾(zhong)使用(yong)(yong)AI的門(men)檻,加(jia)速推進(jin)AI普(pu)惠(hui)化(hua)。目前天翼AI云(yun)電(dian)腦已接(jie)入多個主流(liu)通用(yong)(yong)大(da)模型(xing),以及教育、醫療、法律、心(xin)理等(deng)多個行業大(da)模型(xing),打(da)造AI應用(yong)(yong)中心(xin),創新推出AI會議、AI低代碼、AI文檔(dang)、AI教育等(deng)場景化(hua)標桿(gan)應用(yong)(yong),提升(sheng)客戶辦公(gong)、生產效率。
此外,天(tian)翼云(yun)打造紅云(yun)大(da)模型開發者社(she)區,聚合本土(tu)中文優質AI資源,加速AI應(ying)用創新和(he)商業閉環。通過簡(jian)單易(yi)用的工具鏈,端到端使(shi)能AI應(ying)用開發全(quan)流程,助力孵化國產原生模型。
大會期間,天翼(yi)云攜智算創新(xin)成果亮(liang)相世(shi)博展覽館,展出了國內領先的單體萬(wan)卡液冷智算池、“息壤”“云驍”“慧(hui)聚”三大智算平(ping)臺、AI云電腦以及基(ji)于天翼(yi)云智算云底座的星辰大模(mo)型(xing)等硬核技術成果,全方位展現在(zai)人工智能領域的深厚實力。
人工智(zhi)能正成為發展(zhan)新(xin)質(zhi)生產力的重要引擎,作為云服務(wu)國家隊,天(tian)翼云具有豐(feng)富的智(zhi)算資源儲備、強(qiang)大的智(zhi)算平(ping)臺能力以及開放的模型應用生態。未(wei)來(lai),天(tian)翼云將持(chi)續深(shen)耕技術創新(xin),攜手產業各界共(gong)創智(zhi)算未(wei)來(lai),共(gong)贏AI時代。