自主創新再突破,天翼云高性能計算領域論文被IEEE HPCC 2025收錄
2025-09-10
近日,由天翼云科技有限公司基礎架構事業部(操作系統技術部)高性能網絡研發團隊撰寫的論文《APSCC: Adaptive Congestion Control for Packet-Sprayed RDMA Networks in AI Clusters》被2025年第27屆IEEE國際高性能計算與通信會議(HPCC)高分錄用。這標志著天翼云在高性能網絡與人工智能集群通信領域的核心技術已達到國際領先水平,體現了天翼云在自主創新方面的強大實力。
IEEE HPCC是高速網絡領域內享有盛譽的國際學術會議,獲中國計算機學會(CCF)推薦,并受到IEEE、IEEE計算機協會和IEEE可擴展計算技術委員會(TCSC)大力支持。會議對論文評審嚴格,近三年平均接收率僅為17%。此次論文的成功收錄,再次彰顯了天翼云作為云服務國家隊在高性能網絡與人工智能集群領域的前沿技術實力與持續創新能力。
隨著大型語言模型(LLM)訓練對遠程直接內存訪問(RDMA)的依賴加深,高效數據傳輸成為可能。然而,LLM訓練流量的稀疏性和帶寬密集特性,在等價多路徑(ECMP)路由下,可能導致嚴重的負載不均衡問題。例如,ECMP路由機制在分配流量時可能無法有效識別和處理帶寬密集型的大數據流,從而加劇了鏈路擁塞,出現嚴重的負載不均衡問題。數據包噴射(Packet Spraying, PS)通過將流量分散到多條路徑,為這一問題提供了一種有前景的解決方案,但它對網絡擁塞動態的影響還缺乏系統性研究。
本次被收錄的論文基于NS-3仿真平臺,深入研究了人工智能(AI)集群環境下的數據包噴射機制,系統評估了在擁塞分布、數據包重排序以及流完成時間等方面的性能影響。研究結果表明,擁塞模式隨工作負載強度和拓撲超額訂閱比例的變化發生顯著改變,而現有擁塞控制方案難以有效適應通用包噴灑(PS)網絡中路徑和擁塞熱點頻繁動態變化的場景。
針對上述問題,本研究提出了一種名為APSCC的新型擁塞控制算法。該算法通過亂序(OoO)數據包推斷擁塞位置,并跨路徑聚合顯式擁塞通知(ECN)信號,實現精確的速率控制。如下圖所示,APSCC由三個核心組件構成:發送方、網絡和接收方。
(1)發送方負責發送數據包,并執行擁塞控制的主要響應邏輯,包括目標閾值計算和窗口更新;
(2)交換機在隊列深度超過預設閾值時,對數據包進行ECN標記;
(3)接收方則維護每個隊列對(QP)上ECN標記數據包的統計信息,并將累積的ECN標記數量嵌入至確認包中。
發送方在接收到ACK后觸發APSCC算法,該算法基于以下三個關鍵輸入運行:(1)傳輸層報告的亂序距離;(2)ACK中傳遞的ECN標記數量;(3)當前ACK事件所確認的數據包數量。
為進一步在統一ECN標記閾值下實現交換機間的公平性與收斂性,APSCC采用動態計算公式來確定目標ECN比率。如下圖所示,該閾值函數以當前擁塞窗口大小作為主輸入參數:窗口增大時,閾值相應降低,使發送方能夠更迅速地響應擁塞并傾向于降速;相反,擁塞窗口較小的流則被分配較高閾值,從而獲得更大容忍度與更多速率增長機會。
該機制內置負反饋作用,顯著增強系統穩定性。當流因閾值過于敏感而導致窗口過度縮小時,隨之升高的閾值將抑制進一步縮減,促使窗口恢復正常水平。同樣,在加法增加階段,也展現出良好的自穩定特性:隨著各流逐漸收斂至公平窗口大小,競爭QP之間的同步行為共同作用,有效穩定了擁塞交換機的隊列占用率。
論文實驗結果表明,與現有先進機制相比,APSCC能夠將模型訓練時間最多縮短30%,展現出優越的綜合性能。
目前,APSCC是天翼云自主研發的一款面向智算網絡的高性能擁塞控制算法,專為當前大規模人工智能訓推基礎設施設計。該算法具備包粒度負載均衡下的自適應流量調度能力,通過對網絡時延與吞吐量的協同優化,能夠在高速RDMA環境中顯著提升模型訓練與推理任務的效率,幫助企業充分釋放底層網絡性能潛力,為AI業務提供高效、穩定的運行支撐。
在AI大模型邁向萬卡級集群的背景下,網絡性能已成為制約訓練和推理效率的關鍵瓶頸。天翼云深入貫徹落實創新驅動發展戰略,緊密結合科技創新,積極探索前沿技術,在關鍵核心技術領域不斷取得新突破,為筑牢國云底座、助力數字強國建設貢獻更多力量。