一、PFC和DCQCN的局限性(xing)分析
PFC(基于(yu)優先級的流量控制)是IEEE 802.1Qbb標(biao)準定義的鏈路層協議,通過發送(song)暫停(ting)幀來停(ting)止特(te)定優先級的流量(liang)傳(chuan)輸(shu),實(shi)現無損網絡。然而,PFC存在幾個關鍵局限性(xing):首先,PFC會導致頭阻塞(HoL)問題,當高優(you)先(xian)級(ji)流量暫停(ting)時,低優(you)先(xian)級(ji)流量也會(hui)被阻塞(sai)在相同的交換(huan)機端口;其次(ci),不公(gong)平性是另一個顯著問(wen)題,PFC基于優(you)先級而非流的公平性分配資源,可(ke)能導致某(mou)些流被過度抑制 ;第(di)三,死鎖風(feng)險在復雜網絡(luo)拓撲中尤為突(tu)出,當多(duo)個交(jiao)換(huan)機相互發送(song)暫(zan)停幀時,可能形成無法解(jie)除的循環(huan)暫(zan)停;最后,PFC的隊列數量有限(僅8個優先(xian)級(ji)),在流量多樣化場(chang)景下難以(yi)實現(xian)精(jing)細控制 。
DCQCN(數據中心量化擁塞通(tong)知(zhi))是RoCEv2的(de)端到端擁塞控制(zhi)方(fang)案,結(jie)合了ECN和PFC技術 。DCQCN的(de)優勢(shi)在于通過(guo)ECN提前感知擁塞,避免(mian)過(guo)早觸發(fa)PFC,從(cong)而減少(shao)時(shi)延(yan) 。然而,DCQCN同樣面臨幾個挑戰:配置復雜度高,需(xu)要精(jing)確(que)設(she)置PFC緩沖(chong)區(qu)大小(xiao)和(he)ECN標(biao)記(ji)閾(yu)值,且ECN閾(yu)值必須(xu)低于PFC的(de)告警(jing)閾值,否則無法(fa)正常運作 ;供應商實現差異導(dao)致互操作性差,DCQCN在某(mou)些RoCEv2網卡中(zhong)實現,但不屬于RoCEv2規范(fan)的一部分,不同供應商的實現方式難以高效互操作;此外,依賴PFC的特性使其繼承(cheng)了PFC的(de)頭阻塞和死鎖風險(xian),只是在一定程度(du)上(shang)延緩了(le)觸發(fa)時機 。
二、基于ECN的替代方案
ECN(顯式擁(yong)塞通知)是(shi)一種網絡層和傳輸(shu)層的流量(liang)控制機制,通過在IP報頭中設置(zhi)ECN標志位通知發(fa)送端網絡擁塞情況。ECN本身不依賴PFC,但在以太網(wang)中實現(xian)無(wu)損傳(chuan)輸通常需要(yao)與PFC結合(he),如DCQCN所示 。純(chun)ECN方案在以太(tai)網中獨立應用存在挑(tiao)戰(zhan),因(yin)為傳統TCP協議棧在丟包后(hou)仍會(hui)觸發重傳,而ECN主要作為擁塞信號,不直(zhi)接保證(zheng)無損傳輸。
iWARP是(shi)一種(zhong)基于TCP/IP協(xie)議棧的RDMA技術,它利用TCP重傳機制實現可靠性,無需(xu)無損網絡支持 。iWARP通過在傳(chuan)輸層實現(xian)RDMA,保留了(le)部分(fen)性(xing)能優勢,但由于TCP協議棧(zhan)的限(xian)制,失去(qu)了大部分RDMA的(de)性能優勢 。iWARP的ECN機制主要用于(yu)優化(hua)TCP擁(yong)塞(sai)控制,而非實現無損傳輸,因此無法完(wan)全替代(dai)PFC。
BBR(Bottleneck Bandwidth and Round-trip propagation time)擁塞控制算(suan)法是(shi)Google提出的創(chuang)新(xin)方案,通過動態測量瓶頸鏈路帶(dai)寬和最小往返時延來(lai)優化(hua)發送速率(lv) 。BBRv2版本進(jin)一(yi)步結合(he)ECN,增強了擁(yong)塞感知和公平性。BBR的核心優勢在于避免依(yi)賴丟(diu)包作為擁塞信號,直接(jie)優(you)化帶寬(kuan)和(he)時延,適用于需(xu)要穩定低延遲的場景 。然(ran)而,BBR最初為TCP設計,與RoCEv2等RDMA協議結合仍處于(yu)研究階段,且在淺緩沖區下可能產生較大時延。
三、基于RTT的擁塞控(kong)制技(ji)術
BBR作為基于RTT的(de)擁塞控制技術,通過監測(ce)往返時間變化來預判(pan)擁塞并調整發送速率 。BBRv2通過引(yin)入FaiRTT等改進算法,進一步提升(sheng)了RTT公(gong)平性(xing)和(he)帶寬利(li)用率。BBR的(de)最大帶寬時延(yan)積(ji)(BDP)控制(zhi)使其能(neng)夠更接近Kleimrock最優工作點(dian),實現高(gao)吞吐量的同(tong)時(shi)保持(chi)低時(shi)延 。
BBR的四(si)個狀態(STARTUP、DRAIN、PROBE_BW、PROBE_RTT)使其能夠動(dong)態適應網絡狀況 。在STARTUP狀態(tai),BBR以指數(shu)形式增加發送增益,探測最大可(ke)用帶寬(kuan);在DRAIN狀態,降低(di)發(fa)送(song)增益以排空網絡中(zhong)的擁(yong)塞(sai);在PROBE_BW狀(zhuang)態,循環調整(zheng)發(fa)送增益(yi)以探測帶寬;在PROBE_RTT狀(zhuang)態,發送少(shao)量(liang)數(shu)據(ju)包以更新最小RTT 。這種狀態機設(she)計(ji)使BBR能夠在不同(tong)網(wang)絡條件下保持穩定性能。
然而,BBR在擁塞檢測不及時(shi)時(shi)可能(neng)產生較大時(shi)延,且在緩(huan)沖區足夠大時(shi),不同(tong)RTT流共享瓶頸(jing)鏈路時的公平性難以保證(zheng) 。BBRv2通(tong)過引(yin)入以RTT為(wei)減函數的(de)因子(zi)動態提高(gao)較(jiao)小RTT流的競爭性,設置(zhi)排隊時延閾(yu)值,改善了不(bu)同RTT流的(de)反應(ying)靈敏度,但在(zai)實際(ji)部署中仍(reng)需進一步(bu)驗證 。
四、基于(yu)Credit的擁塞(sai)控制方案
ExpressPass是一種端到端Credit機(ji)制,通過(guo)信用轉(zhuan)移進行帶寬分配和細粒度數據包調度。ExpressPass的核心思想是在發(fa)送數據包(bao)前使用Credit數(shu)據包控制擁塞,從而(er)實現有限延遲和快速收(shou)斂。這種機制能夠(gou)避免(mian)PFC的(de)頭阻塞問題,但(dan)需要全網(wang)設備支(zhi)持,部署復雜度較高。
InfiniBand網絡采用基于Credit的逐跳流(liu)控(kong)機制,從硬件層面保證數據無損,避(bi)免了緩沖區(qu)溢出分組丟(diu)失 。InfiniBand交換機和網(wang)卡之間持續交換Credit信(xin)息,確保(bao)發送(song)端不會發送(song)過量數據 。然(ran)而,InfiniBand是專(zhuan)用(yong)網絡(luo)技術,需(xu)要(yao)專用硬件,與以太(tai)網組件不通用,組網成本高(gao) 。
確定性網絡(如TSN和DetNet)通過資(zi)源(yuan)預(yu)留、顯(xian)式(shi)路徑和服務保護等機制(zhi),從根(gen)本(ben)上避免了擁(yong)塞丟包(bao) 。TSN在數據(ju)鏈(lian)路層通過(guo)時(shi)鐘同步、流量(liang)整(zheng)形等機(ji)制為高優(you)先(xian)級流量(liang)提供確定性傳輸(shu)”時(shi)隙” ;DetNet在網絡層(ceng)實現確定傳輸路徑,提供時(shi)延、分組(zu)丟失和抖動的最壞情況界(jie)限 。確定性網(wang)絡能(neng)夠實現零丟包和確定(ding)時延,但依賴(lai)專用硬件支(zhi)持,且配置(zhi)復(fu)雜度(du)高,成本昂貴 。
五、網絡升級與(yu)優化(hua)策略
帶寬升(sheng)級是解(jie)決擁(yong)塞的(de)最(zui)直接方法。隨著25G/100G/400G帶(dai)寬普及,網(wang)絡傳輸速度大幅提升(sheng),RTT減少,從而降低擁塞風險。高帶(dai)寬直接緩解擁塞,但成本較高且需配合流量管理才能避免(mian)局部擁塞。
多路(lu)徑技(ji)術通過(guo)分散(san)流量(liang)降低單鏈路(lu)擁塞風險。谷歌(ge)Aquila架(jia)構采(cai)用全連接的(de)dragonfly拓撲,結合(he)ECMP(等價多路徑)實現負載均(jun)衡,提高(gao)了網絡(luo)利(li)用率 。亞馬(ma)遜的(de)可(ke)擴(kuo)展(zhan)可(ke)靠數(shu)據報文(SRD)和英偉達的自(zi)適應路由等方案,以數據包為粒度將流分散到多個等價(jia)路徑上,網卡硬(ying)件實現多路徑傳輸層邏輯,包括擁塞(sai)感知的流量切分和收端(duan)亂序接收等(deng) 。多(duo)路徑(jing)技術能夠顯著提升(sheng)吞(tun)吐量,在RoCEv2環境中(zhong),吞吐量可提升(sheng)1.5~2倍
SDN(軟件定義網絡)通過集中式控制器(qi)實(shi)現(xian)全局(ju)流量調度(du),能夠動態(tai)調整(zheng)流(liu)量路(lu)徑和優先級(ji)。Google通過SDN將核心網絡(luo)帶寬利用率提升至100%,遠超傳統網(wang)絡的30%~40% 。SDN的(de)優勢在(zai)于(yu)全(quan)局視角和靈(ling)活控制,但需(xu)結(jie)合ECN/PFC或專用協議才能實現(xian)無損網(wang)絡,且控制器開銷可能影響性(xing)能 。
六、確定性網(wang)絡的突破與應用
確定性網絡在(zai)解決(jue)擁塞問題上展現出獨特優勢。中國信(xin)通(tong)院測(ce)試顯示,山東(dong)確定性網絡在(zai)2000公里傳輸(shu)距離下實現端(duan)到端(duan)抖動小于(yu)30微秒,滿足工業(ye)控制場景對(dui)250微(wei)秒時延抖動(dong)的嚴苛(ke)要求 。CENI試驗網構(gou)建的南京(jing)到貴陽長達2450公里的試驗網,實現(xian)了RDMA無(wu)損流量跨廣域傳輸,證(zheng)明(ming)了(le)確定性(xing)網(wang)絡在長距離場景中的(de)可(ke)行性(xing) 。
新華三通過確定(ding)性網(wang)絡技術支(zhi)持400G長距離無(wu)損(sun)傳輸,為”東數西算”工程提供高吞吐需求保(bao)障(zhang) 。在數據庫異地雙活(huo)測試中,確(que)定(ding)性網(wang)絡在600公里距離上不論網絡狀態如(ru)何,目標流時延均在6ms以(yi)內,且抖動無明(ming)顯變化,優(you)于傳(chuan)統網絡的(de)負載敏感時延 。
確定(ding)性網絡(luo)的核心技(ji)術包(bao)括(kuo):資(zi)源預留(liu)、服務保(bao)護(hu)和顯(xian)式(shi)路徑(jing) 。資源預留(liu)通過預留(liu)緩(huan)沖區空(kong)間(jian)或鏈路帶(dai)寬(kuan),解(jie)決確定(ding)性(xing)網絡流的延遲和(he)丟包問題(ti) ;服務保(bao)護采用報(bao)文復制(zhi)和消除(chu)機制(zhi),解決(jue)隨機媒體錯誤和設(she)備(bei)失效(xiao)導致的丟包問(wen)題 ;顯式路(lu)徑則為(wei)確定性(xing)(xing)流(liu)提(ti)供(gong)定制化的(de)數據傳(chuan)輸服務,避免路(lu)徑變化導致的(de)性(xing)(xing)能波動 。
七、不同(tong)技(ji)術方案性能對比(bi)
下表對PFC、DCQCN和幾種替代技(ji)術在延(yan)遲、吞吐量和資源(yuan)利用效率三(san)個(ge)維(wei)度進行對比:
|
技術方案 |
延(yan)遲表現 |
吞吐量 |
資源(yuan)利用(yong)效率 |
主要局限性 |
|
PFC |
低延遲但(dan)存在HoL阻塞,時延不確定(ding)性(xing)高 |
受限于隊(dui)列數量,吞(tun)吐量低 |
高但(dan)存在死(si)鎖風險(xian) |
死鎖(suo)風險,不公平性(xing),配置復雜 |
|
DCQCN |
低延(yan)遲但(dan)依賴(lai)PFC,時(shi)延波動大(da) |
中等吞吐量,受ECN/PFC組(zu)合(he)限制 |
中等,需(xu)精確配置(zhi) |
供應商(shang)實現差(cha)異,互操作性(xing)差(cha) |
|
BBRv2 |
低延遲(chi),避(bi)免丟包依賴 |
高吞(tun)吐量,但淺緩(huan)沖區下可(ke)能(neng)產生較(jiao)大時延 |
高,但需協(xie)議棧適配(pei) |
與RoCEv2結合(he)案(an)例少(shao),公平(ping)性(xing)問題(ti) |
|
多路徑(jing)RDMA |
依賴路徑長度,短(duan)路徑低延遲 |
顯著(zhu)提升(1.5-2倍) |
高,分散(san)流量降低(di)局部擁塞 |
需(xu)支持ECMP的交換機和(he)網(wang)卡 |
|
確定性網(wang)絡(luo) |
零抖(dou)動(<30μs),確定時延(yan) |
有限,受資源預留限制 |
高,減少重傳和隊列管理開銷 |
依賴專(zhuan)用硬(ying)件(jian),配置復雜,成本(ben)高(gao) |
|
SDN動態調(diao)度 |
低(di)延遲,動態路徑選擇 |
理論(lun)可達100%,實際受協(xie)議棧限制 |
極高,但增加(jia)控制器開銷 |
依賴集(ji)中(zhong)控制(zhi),協議兼容(rong)性問(wen)題 |
確定(ding)性網絡在(zai)延遲抖動控制上表現最(zui)佳,但需要(yao)專用硬件支持,成本較高 。多路徑RDMA在吞吐量提升方(fang)面最(zui)為顯著,通(tong)過流量分散可將吞(tun)吐量提(ti)升至單路徑的1.5~2倍。SDN在資源利用效(xiao)率上具有理論優勢,能夠(gou)實現(xian)接近100%的帶寬利用率,但實際部(bu)署中需權衡協議(yi)棧(zhan)兼容性和控制器開銷 。
八、場景適配與未來發展趨勢
不同擁塞控制技術適用于不同場(chang)景。對于高性(xing)能(neng)計(ji)算(suan)(HPC)和分布式存(cun)儲等(deng)需要高吞吐量和(he)低延遲的(de)場景,RoCEv2結合多路(lu)徑(jing)技術(如(ru)亞馬遜SRD、英偉達自(zi)適應路由(you))可能是更優選擇,能夠顯(xian)著提升吞(tun)吐量并降低局部擁塞風(feng)險 。
對于工業控制(zhi)、遠程(cheng)手(shou)術和(he)車(che)聯網等對(dui)時延抖(dou)動要(yao)求(qiu)極高(gao)的(de)場景(jing),確(que)定(ding)性網絡(如TSN/DetNet)提供了最佳解決方案,能夠保證(zheng)有界低時(shi)延和零丟包(bao),滿足這些場景的嚴(yan)苛要(yao)求 。例如,華為試驗數據顯示,采用VIP優先級(ji)機制后,關(guan)鍵業務流量時(shi)延波動范圍壓縮至±5μs,遠優于傳統網絡。
對于需要與傳(chuan)統(tong)以太網兼(jian)容(rong)且成本敏(min)感的場景,BBRv2結合ECN可能是一(yi)個(ge)平衡選(xuan)擇(ze),能夠在(zai)不改變現有基礎設施的情況下,優化(hua)網絡性(xing)能。BBRv2的改進算(suan)法如FaiRTT,能夠提(ti)高(gao)較小RTT流的競爭性(xing),改善較大RTT流和較小RTT流的(de)反應靈敏度,實現相對公平(ping)的(de)帶寬分配和低時延傳輸(shu) 。
未來(lai)發展趨勢顯示,確定性網絡與算力網絡的(de)融合(he)將(jiang)成為關鍵方向 。確定(ding)性(xing)算(suan)力(li)網絡通過(guo)任務優先級劃(hua)分、資源預(yu)留(liu)和預(yu)調(diao)等(deng)機(ji)制,實現(xian)計算(suan)任務在約束(shu)時間內的確定(ding)性(xing)傳輸和計算(suan) 。這種融合將(jiang)為AI大模(mo)型訓練、分布式存儲等新興應用提供更(geng)優的(de)網絡支持(chi)。
硬件加速(su)與(yu)協議創(chuang)新也將持續推動擁塞控制技術的發展(zhan)。隨著25G/100G/400G帶(dai)寬普及(ji),網絡傳輸速度大幅(fu)提(ti)升(sheng),但同時也(ye)帶(dai)來了新的(de)擁(yong)塞挑戰。高速存儲(chu)替代交換機Buffer等創新方案,可(ke)能為解決擁(yong)塞問題提供新的思路。
九、結論與建議
沒有一種技術能夠(gou)完(wan)全替代PFC和(he)DCQCN,但針對(dui)不同(tong)場景,存(cun)在更優的(de)選擇。對(dui)于需要高吞吐量的場景,多路徑RDMA技術(shu)可能(neng)是(shi)更優選擇;對于對時延抖動要(yao)求極高的場景(jing),確(que)定性(xing)網(wang)絡提供了最佳(jia)解決方案(an);對于需要(yao)與(yu)傳統以太網兼容的場景,BBRv2結合(he)ECN可能是一個平衡選擇。
在實(shi)際部署中(zhong),應根據具體(ti)應用(yong)場景(jing)和需求,選(xuan)擇合(he)適的擁塞控制技術組(zu)合(he)。例如,在AI大模型訓練(lian)場景中,可以考慮結合確定性網絡(luo)和多路徑技術,既保(bao)證關鍵數據流(liu)的確定時延,又提升(sheng)整體(ti)網絡(luo)吞吐量(liang)。在(zai)金融交易等(deng)對低延遲(chi)要求(qiu)極高的場景中,可以考慮采用BBRv2優化算法,減少(shao)網絡擁塞帶來的時(shi)延波動 。
隨著網絡(luo)技術的不斷(duan)發展,端網協同(tong)將成為解決(jue)擁塞問題的(de)新方向 。通過在網卡和交(jiao)換機(ji)之間建立(li)更緊(jin)密的協同機(ji)制(zhi),可以實現更精細的流量控制(zhi)和擁塞感知,進一步提升(sheng)網絡性(xing)能。例如,微軟(ruan)Azure的PFC-Relay方案(an)通過專用中繼設(she)備,將高性能(neng)無(wu)損RDMA擴展到長距(ju)離(li)鏈路,解決了傳(chuan)統PFC在廣域互(hu)聯場景(jing)中的局限性 。
最終,解決以(yi)太(tai)網擁(yong)塞問題需要綜合考慮技術成熟度、成本效益和應用場景需求(qiu)。在選(xuan)擇(ze)擁塞控制技(ji)(ji)術(shu)時,不應盲(mang)目(mu)追(zhui)求(qiu)最新技(ji)(ji)術(shu),而應基(ji)于實際業務需求(qiu)和網絡環境(jing),選(xuan)擇(ze)最適(shi)合的解決方案。隨著確定性網絡、多(duo)路(lu)徑技(ji)(ji)術(shu)和SDN等(deng)(deng)技術的(de)不斷發展和(he)成(cheng)熟,未來數(shu)據(ju)中心網絡(luo)(luo)擁塞(sai)控制將更(geng)加靈活高效,為各類應用提供(gong)更(geng)好(hao)的(de)網絡(luo)(luo)支持。