亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

  • 發布文章
  • 消息中心
點贊
收藏
評論
分享
原創(chuang)

以太網擁塞控制技術比較與替代方案分析

2025-07-23 10:26:13
15
0

一、PFCDCQCN的局限性(xing)分析

PFC(基于(yu)優先級的流量控制)IEEE 802.1Qbb標(biao)準定義的鏈路層協議,通過發送(song)暫停(ting)幀來停(ting)止特(te)定優先級的流量(liang)傳(chuan)輸(shu),實(shi)現無損網絡。然而,PFC存在幾個關鍵局限性(xing):首先,PFC會導致頭阻塞(HoL)問題,當高優(you)先(xian)級(ji)流量暫停(ting)時,低優(you)先(xian)級(ji)流量也會(hui)被阻塞(sai)在相同的交換(huan)機端口;其次(ci),不公(gong)平性是另一個顯著問(wen)題,PFC基于優(you)先級而非流的公平性分配資源,可(ke)能導致某(mou)些流被過度抑制 ;第(di)三,死鎖風(feng)險在復雜網絡(luo)拓撲中尤為突(tu)出,當多(duo)個交(jiao)換(huan)機相互發送(song)暫(zan)停幀時,可能形成無法解(jie)除的循環(huan)暫(zan)停;最后,PFC的隊列數量有限(8個優先(xian)級(ji)),在流量多樣化場(chang)景下難以(yi)實現(xian)精(jing)細控制

DCQCN(數據中心量化擁塞通(tong)知(zhi))RoCEv2的(de)端到端擁塞控制(zhi)方(fang)案,結(jie)合了ECNPFC技術 DCQCN的(de)優勢(shi)在于通過(guo)ECN提前感知擁塞,避免(mian)過(guo)早觸發(fa)PFC,從(cong)而減少(shao)時(shi)延(yan) 。然而,DCQCN同樣面臨幾個挑戰:配置復雜度高,需(xu)要精(jing)確(que)設(she)置PFC緩沖(chong)區(qu)大小(xiao)和(he)ECN標(biao)記(ji)閾(yu)值,且ECN閾(yu)值必須(xu)低于PFC的(de)告警(jing)閾值,否則無法(fa)正常運作 供應商實現差異導(dao)致互操作性差,DCQCN在某(mou)些RoCEv2網卡中(zhong)實現,但不屬于RoCEv2規范(fan)的一部分,不同供應商的實現方式難以高效互操作;此外,依賴PFC的特性使其繼承(cheng)了PFC的(de)頭阻塞和死鎖風險(xian),只是在一定程度(du)上(shang)延緩了(le)觸發(fa)時機

二、基于ECN的替代方案

ECN(顯式擁(yong)塞通知)是(shi)一種網絡層和傳輸(shu)層的流量(liang)控制機制,通過在IP報頭中設置(zhi)ECN標志位通知發(fa)送端網絡擁塞情況ECN本身不依賴PFC,但在以太網(wang)中實現(xian)無(wu)損傳(chuan)輸通常需要(yao)與PFC結合(he),如DCQCN所示 。純(chun)ECN方案在以太(tai)網中獨立應用存在挑(tiao)戰(zhan),因(yin)為傳統TCP協議棧在丟包后(hou)仍會(hui)觸發重傳,而ECN主要作為擁塞信號,不直(zhi)接保證(zheng)無損傳輸

iWARP是(shi)一種(zhong)基于TCP/IP協(xie)議棧的RDMA技術,它利用TCP重傳機制實現可靠性,無需(xu)無損網絡支持 iWARP通過在傳(chuan)輸層實現(xian)RDMA,保留了(le)部分(fen)性(xing)能優勢,但由于TCP協議棧(zhan)的限(xian)制,失去(qu)了大部分RDMA的(de)性能優勢 iWARPECN機制主要用于(yu)優化(hua)TCP擁(yong)塞(sai)控制,而非實現無損傳輸,因此無法完(wan)全替代(dai)PFC

BBR(Bottleneck Bandwidth and Round-trip propagation time)擁塞控制算(suan)法是(shi)Google提出的創(chuang)新(xin)方案,通過動態測量瓶頸鏈路帶(dai)寬和最小往返時延來(lai)優化(hua)發送速率(lv) BBRv2版本進(jin)一(yi)步結合(he)ECN,增強了擁(yong)塞感知和公平性BBR的核心優勢在于避免依(yi)賴丟(diu)包作為擁塞信號,直接(jie)優(you)化帶寬(kuan)和(he)時延,適用于需(xu)要穩定低延遲的場景 。然(ran)而,BBR最初為TCP設計,與RoCEv2RDMA協議結合仍處于(yu)研究階段,且在淺緩沖區下可能產生較大時延

三、基于RTT的擁塞控(kong)制技(ji)術

BBR作為基于RTT的(de)擁塞控制技術,通過監測(ce)往返時間變化來預判(pan)擁塞并調整發送速率 BBRv2通過引(yin)入FaiRTT等改進算法,進一步提升(sheng)了RTT公(gong)平性(xing)和(he)帶寬利(li)用率BBR的(de)最大帶寬時延(yan)積(ji)(BDP)控制(zhi)使其能(neng)夠更接近Kleimrock最優工作點(dian),實現高(gao)吞吐量的同(tong)時(shi)保持(chi)低時(shi)延 

BBR的四(si)個狀態(STARTUPDRAINPROBE_BWPROBE_RTT)使其能夠動(dong)態適應網絡狀況 。在STARTUP狀態(tai),BBR以指數(shu)形式增加發送增益,探測最大可(ke)用帶寬(kuan);在DRAIN狀態,降低(di)發(fa)送(song)增益以排空網絡中(zhong)的擁(yong)塞(sai);在PROBE_BW狀(zhuang)態,循環調整(zheng)發(fa)送增益(yi)以探測帶寬;在PROBE_RTT狀(zhuang)態,發送少(shao)量(liang)數(shu)據(ju)包以更新最小RTT 。這種狀態機設(she)計(ji)使BBR能夠在不同(tong)網(wang)絡條件下保持穩定性能。

然而,BBR在擁塞檢測不及時(shi)時(shi)可能(neng)產生較大時(shi)延,且在緩(huan)沖區足夠大時(shi),不同(tong)RTT流共享瓶頸(jing)鏈路時的公平性難以保證(zheng) BBRv2通(tong)過引(yin)入以RTT為(wei)減函數的(de)因子(zi)動態提高(gao)較(jiao)小RTT流的競爭性,設置(zhi)排隊時延閾(yu)值,改善了不(bu)同RTT流的(de)反應(ying)靈敏度,但在(zai)實際(ji)部署中仍(reng)需進一步(bu)驗證 

四、基于(yu)Credit的擁塞(sai)控制方案

ExpressPass是一種端到端Credit機(ji)制,通過(guo)信用轉(zhuan)移進行帶寬分配和細粒度數據包調度ExpressPass的核心思想是在發(fa)送數據包(bao)前使用Credit數(shu)據包控制擁塞,從而(er)實現有限延遲和快速收(shou)斂。這種機制能夠(gou)避免(mian)PFC的(de)頭阻塞問題,但(dan)需要全網(wang)設備支(zhi)持,部署復雜度較高

InfiniBand網絡采用基于Credit的逐跳流(liu)控(kong)機制,從硬件層面保證數據無損,避(bi)免了緩沖區(qu)溢出分組丟(diu)失 InfiniBand交換機和網(wang)卡之間持續交換Credit信(xin)息,確保(bao)發送(song)端不會發送(song)過量數據 。然(ran)而,InfiniBand是專(zhuan)用(yong)網絡(luo)技術,需(xu)要(yao)專用硬件,與以太(tai)網組件不通用,組網成本高(gao) 

確定性網絡(TSNDetNet)通過資(zi)源(yuan)預(yu)留、顯(xian)式(shi)路徑和服務保護等機制(zhi),從根(gen)本(ben)上避免了擁(yong)塞丟包(bao) TSN在數據(ju)鏈(lian)路層通過(guo)時(shi)鐘同步、流量(liang)整(zheng)形等機(ji)制為高優(you)先(xian)級流量(liang)提供確定性傳輸(shu)”時(shi)隙” DetNet在網絡層(ceng)實現確定傳輸路徑,提供時(shi)延、分組(zu)丟失和抖動的最壞情況界(jie)限 。確定性網(wang)絡能(neng)夠實現零丟包和確定(ding)時延,但依賴(lai)專用硬件支(zhi)持,且配置(zhi)復(fu)雜度(du)高,成本昂貴 

五、網絡升級與(yu)優化(hua)策略

帶寬升(sheng)級是解(jie)決擁(yong)塞的(de)最(zui)直接方法。隨著25G/100G/400G帶(dai)寬普及,網(wang)絡傳輸速度大幅提升(sheng),RTT減少,從而降低擁塞風險高帶(dai)寬直接緩解擁塞,但成本較高且需配合流量管理才能避免(mian)局部擁塞

多路(lu)徑技(ji)術通過(guo)分散(san)流量(liang)降低單鏈路(lu)擁塞風險。谷歌(ge)Aquila架(jia)構采(cai)用全連接的(de)dragonfly拓撲,結合(he)ECMP(等價多路徑)實現負載均(jun)衡,提高(gao)了網絡(luo)利(li)用率 。亞馬(ma)遜的(de)可(ke)擴(kuo)展(zhan)可(ke)靠數(shu)據報文(SRD)和英偉達的自(zi)適應路由等方案,以數據包為粒度將流分散到多個等價(jia)路徑上,網卡硬(ying)件實現多路徑傳輸層邏輯,包括擁塞(sai)感知的流量切分和收端(duan)亂序接收等(deng) 。多(duo)路徑(jing)技術能夠顯著提升(sheng)吞(tun)吐量,在RoCEv2環境中(zhong),吞吐量可提升(sheng)1.5~2 

SDN(軟件定義網絡)通過集中式控制器(qi)實(shi)現(xian)全局(ju)流量調度(du),能夠動態(tai)調整(zheng)流(liu)量路(lu)徑和優先級(ji)Google通過SDN將核心網絡(luo)帶寬利用率提升至100%,遠超傳統網(wang)絡的30%~40% SDN的(de)優勢在(zai)于(yu)全(quan)局視角靈(ling)活控制,但需(xu)結(jie)合ECN/PFC或專用協議才能實現(xian)無損網(wang)絡,且控制器開銷可能影響性(xing)能 

六、確定性網(wang)絡的突破與應用

確定性網絡在(zai)解決(jue)擁塞問題上展現出獨特優勢。中國信(xin)通(tong)院測(ce)試顯示,山東(dong)確定性網絡在(zai)2000公里傳輸(shu)距離下實現端(duan)到端(duan)抖動小于(yu)30微秒,滿足工業(ye)控制場景對(dui)250微(wei)秒時延抖動(dong)的嚴苛(ke)要求 CENI試驗網構(gou)建的南京(jing)到貴陽長達2450公里的試驗網,實現(xian)了RDMA無(wu)損流量跨廣域傳輸,證(zheng)明(ming)了(le)確定性(xing)網(wang)絡在長距離場景中的(de)可(ke)行性(xing) 

新華三通過確定(ding)性網(wang)絡技術支(zhi)持400G長距離無(wu)損(sun)傳輸,為”東數西算”工程提供高吞吐需求保(bao)障(zhang) 。在數據庫異地雙活(huo)測試中,確(que)定(ding)性網(wang)絡在600公里距離上不論網絡狀態如(ru)何,目標流時延均在6ms以(yi)內,且抖動無明(ming)顯變化,優(you)于傳(chuan)統網絡的(de)負載敏感時延 

確定(ding)性網絡(luo)的核心技(ji)術包(bao)括(kuo):資(zi)源預留(liu)、服務保(bao)護(hu)和顯(xian)式(shi)路徑(jing) 。資源預留(liu)通過預留(liu)緩(huan)沖區空(kong)間(jian)或鏈路帶(dai)寬(kuan),解(jie)決確定(ding)性(xing)網絡流的延遲和(he)丟包問題(ti) ;服務保(bao)護采用報(bao)文復制(zhi)和消除(chu)機制(zhi),解決(jue)隨機媒體錯誤和設(she)備(bei)失效(xiao)導致的丟包問(wen)題 ;顯式路(lu)徑則為(wei)確定性(xing)(xing)流(liu)提(ti)供(gong)定制化的(de)數據傳(chuan)輸服務,避免路(lu)徑變化導致的(de)性(xing)(xing)能波動 

七、不同(tong)技(ji)術方案性能對比(bi)

下表對PFCDCQCN和幾種替代技(ji)術在延(yan)遲、吞吐量和資源(yuan)利用效率三(san)個(ge)維(wei)度進行對比:

技術方案

延(yan)遲表現

吞吐量

資源(yuan)利用(yong)效率

主要局限性

PFC

低延遲但(dan)存在HoL阻塞,時延不確定(ding)性(xing)高

受限于隊(dui)列數量,吞(tun)吐量低

高但(dan)存在死(si)鎖風險(xian)

死鎖(suo)風險,不公平性(xing),配置復雜

DCQCN

低延(yan)遲但(dan)依賴(lai)PFC,時(shi)延波動大(da)

中等吞吐量,受ECN/PFC組(zu)合(he)限制

中等,需(xu)精確配置(zhi)

供應商(shang)實現差(cha)異,互操作性(xing)差(cha)

BBRv2

低延遲(chi),避(bi)免丟包依賴

高吞(tun)吐量,但淺緩(huan)沖區下可(ke)能(neng)產生較(jiao)大時延

高,但需協(xie)議棧適配(pei)

RoCEv2結合(he)案(an)例少(shao),公平(ping)性(xing)問題(ti)

多路徑(jing)RDMA

依賴路徑長度,短(duan)路徑低延遲

顯著(zhu)提升(1.5-2)

高,分散(san)流量降低(di)局部擁塞

需(xu)支持ECMP的交換機和(he)網(wang)卡

確定性網(wang)絡(luo)

零抖(dou)動(30μs),確定時延(yan)

有限,受資源預留限制

高,減少重傳和隊列管理開銷

依賴專(zhuan)用硬(ying)件(jian),配置復雜,成本(ben)高(gao)

SDN動態調(diao)度

低(di)延遲,動態路徑選擇

理論(lun)可達100%,實際受協(xie)議棧限制

極高,但增加(jia)控制器開銷

依賴集(ji)中(zhong)控制(zhi),協議兼容(rong)性問(wen)題

確定(ding)性網絡在(zai)延遲抖動控制上表現最(zui)佳,但需要(yao)專用硬件支持,成本較高 多路徑RDMA在吞吐量提升方(fang)面最(zui)為顯著,通(tong)過流量分散可將吞(tun)吐量提(ti)升至單路徑的1.5~2SDN在資源利用效(xiao)率上具有理論優勢,能夠(gou)實現(xian)接近100%的帶寬利用率,但實際部(bu)署中需權衡協議(yi)棧(zhan)兼容性和控制器開銷 

八、場景適配與未來發展趨勢

不同擁塞控制技術適用于不同場(chang)景。對于高性(xing)能(neng)計(ji)算(suan)(HPC)和分布式存(cun)儲等(deng)需要高吞吐量和(he)低延遲的(de)場景,RoCEv2結合多路(lu)徑(jing)技術(如(ru)亞馬遜SRD、英偉達自(zi)適應路由(you))可能是更優選擇,能夠顯(xian)著提升吞(tun)吐量并降低局部擁塞風(feng)險 

對于工業控制(zhi)、遠程(cheng)手(shou)術和(he)車(che)聯網等對(dui)時延抖(dou)動要(yao)求(qiu)極高(gao)的(de)場景(jing),確(que)定(ding)性網絡(TSN/DetNet)提供了最佳解決方案,能夠保證(zheng)有界低時(shi)延和零丟包(bao),滿足這些場景的嚴(yan)苛要(yao)求 。例如,華為試驗數據顯示,采用VIP優先級(ji)機制后,關(guan)鍵業務流量時(shi)延波動范圍壓縮至±5μs,遠優于傳統網絡

對于需要與傳(chuan)統(tong)以太網兼(jian)容(rong)且成本敏(min)感的場景,BBRv2結合ECN可能是一(yi)個(ge)平衡選(xuan)擇(ze),能夠在(zai)不改變現有基礎設施的情況下,優化(hua)網絡性(xing)能BBRv2的改進算(suan)法如FaiRTT,能夠提(ti)高(gao)較小RTT流的競爭性(xing),改善較大RTT流和較小RTT流的(de)反應靈敏度,實現相對公平(ping)的(de)帶寬分配和低時延傳輸(shu) 

未來(lai)發展趨勢顯示,確定性網絡與算力網絡的(de)融合(he)將(jiang)成為關鍵方向 。確定(ding)性(xing)算(suan)力(li)網絡通過(guo)任務優先級劃(hua)分、資源預(yu)留(liu)和預(yu)調(diao)等(deng)機(ji)制,實現(xian)計算(suan)任務在約束(shu)時間內的確定(ding)性(xing)傳輸和計算(suan) 。這種融合將(jiang)為AI大模(mo)型訓練、分布式存儲等新興應用提供更(geng)優的(de)網絡支持(chi)。

硬件加速(su)與(yu)協議創(chuang)新也將持續推動擁塞控制技術的發展(zhan)。隨著25G/100G/400G帶(dai)寬普及(ji),網絡傳輸速度大幅(fu)提(ti)升(sheng),但同時也(ye)帶(dai)來了新的(de)擁(yong)塞挑戰。高速存儲(chu)替代交換機Buffer等創新方案,可(ke)能為解決擁(yong)塞問題提供新的思路

九、結論與建議

沒有一種技術能夠(gou)完(wan)全替代PFC和(he)DCQCN,但針對(dui)不同(tong)場景,存(cun)在更優的(de)選擇。對(dui)于需要高吞吐量的場景,多路徑RDMA技術(shu)可能(neng)是(shi)更優選擇;對于對時延抖動要(yao)求極高的場景(jing),確(que)定性(xing)網(wang)絡提供了最佳(jia)解決方案(an);對于需要(yao)與(yu)傳統以太網兼容的場景,BBRv2結合(he)ECN可能是一個平衡選擇。

在實(shi)際部署中(zhong),應根據具體(ti)應用(yong)場景(jing)和需求,選(xuan)擇合(he)適的擁塞控制技術組(zu)合(he)。例如,在AI大模型訓練(lian)場景中,可以考慮結合確定性網絡(luo)和多路徑技術,既保(bao)證關鍵數據流(liu)的確定時延,又提升(sheng)整體(ti)網絡(luo)吞吐量(liang)。在(zai)金融交易等(deng)對低延遲(chi)要求(qiu)極高的場景中,可以考慮采用BBRv2優化算法,減少(shao)網絡擁塞帶來的時(shi)延波動 

隨著網絡(luo)技術的不斷(duan)發展,端網協同(tong)將成為解決(jue)擁塞問題的(de)新方向 。通過在網卡和交(jiao)換機(ji)之間建立(li)更緊(jin)密的協同機(ji)制(zhi),可以實現更精細的流量控制(zhi)和擁塞感知,進一步提升(sheng)網絡性(xing)能。例如,微軟(ruan)AzurePFC-Relay方案(an)通過專用中繼設(she)備,將高性能(neng)無(wu)損RDMA擴展到長距(ju)離(li)鏈路,解決了傳(chuan)統PFC在廣域互(hu)聯場景(jing)中的局限性 

最終,解決以(yi)太(tai)網擁(yong)塞問題需要綜合考慮技術成熟度、成本效益和應用場景需求(qiu)。在選(xuan)擇(ze)擁塞控制技(ji)(ji)術(shu)時,不應盲(mang)目(mu)追(zhui)求(qiu)最新技(ji)(ji)術(shu),而應基(ji)于實際業務需求(qiu)和網絡環境(jing),選(xuan)擇(ze)最適(shi)合的解決方案。隨著確定性網絡、多(duo)路(lu)徑技(ji)(ji)術(shu)和SDN等(deng)(deng)技術的(de)不斷發展和(he)成(cheng)熟,未來數(shu)據(ju)中心網絡(luo)(luo)擁塞(sai)控制將更(geng)加靈活高效,為各類應用提供(gong)更(geng)好(hao)的(de)網絡(luo)(luo)支持。

0條評論
0 / 1000
c****n
6文章數
1粉絲數
c****n
6 文章 | 1 粉(fen)絲
原創

以太網擁塞控制技術比較與替代方案分析

2025-07-23 10:26:13
15
0

一、PFCDCQCN的局限性分析

PFC(基于優先級的流(liu)量(liang)控制(zhi))IEEE 802.1Qbb標準定(ding)(ding)義(yi)的鏈路層協議(yi),通過發送暫(zan)停幀來停止特定(ding)(ding)優先級的流(liu)量傳輸,實現無損網絡。然而,PFC存(cun)在幾個關鍵(jian)局限性(xing):首先,PFC會導致頭阻(zu)塞(HoL)問題,當(dang)高優先級流(liu)(liu)量(liang)暫停時,低優先級流(liu)(liu)量(liang)也會(hui)被阻塞(sai)在(zai)相(xiang)同(tong)的(de)交(jiao)換機端口;其(qi)次,不公平性是另(ling)一個顯著(zhu)問題,PFC基于優(you)先(xian)級而非流(liu)的公平性分(fen)配資(zi)源(yuan),可(ke)能導致(zhi)某些(xie)流(liu)被(bei)過度(du)抑制 ;第三,死鎖風險在復雜網絡(luo)拓撲中尤為突出,當多個交(jiao)換機相互發送暫(zan)停(ting)幀時,可能形成無法解除的循(xun)環暫(zan)停(ting);最后,PFC的隊列數量有限(8個優先級),在流量多樣化場景下難以(yi)實現(xian)精細控(kong)制(zhi)

DCQCN(數據中心量化(hua)擁塞通知)RoCEv2的端到(dao)端擁塞控制方案,結合了ECNPFC技術(shu) DCQCN的(de)優勢(shi)在于通過ECN提(ti)前感知(zhi)擁(yong)塞,避免過早觸發PFC,從(cong)而減少時(shi)延 。然而,DCQCN同(tong)樣面臨幾個挑戰:配置復雜度高,需要精確設(she)置PFC緩沖區大(da)小和ECN標記閾值,且ECN閾值(zhi)必(bi)須(xu)低于PFC的告警閾值,否則無法正常運(yun)作 供應商實現差異導致互操作(zuo)性差,DCQCN在某些RoCEv2網卡中(zhong)實現,但不屬于RoCEv2規范的一部分,不同供應(ying)商的實(shi)現(xian)方式難以高效互操作;此外,依賴(lai)PFC的特性(xing)使其繼承了(le)PFC的頭阻塞和(he)死鎖風(feng)險,只是在一定程度上延緩了(le)觸發時機

二、基于ECN的替(ti)代方(fang)案

ECN(顯式擁塞通(tong)知)是一種網絡層(ceng)(ceng)和(he)傳輸(shu)層(ceng)(ceng)的流量控制(zhi)機(ji)制(zhi),通過在IP報頭中設置ECN標志(zhi)位通知發送(song)端(duan)網(wang)絡(luo)擁(yong)塞情(qing)況ECN本身不依賴PFC,但(dan)在以(yi)太網中實現無損傳輸通常(chang)需要與(yu)PFC結合,如DCQCN所示 。純ECN方案在以太網中獨立(li)應(ying)用存在挑(tiao)戰,因(yin)為傳統TCP協(xie)議棧在丟(diu)包后仍會(hui)觸發重(zhong)傳,而(er)ECN主要作為擁塞信號,不直接(jie)保證無損傳輸

iWARP是一種基(ji)于TCP/IP協議棧的RDMA技(ji)術,它利用TCP重傳(chuan)機制(zhi)實現可(ke)靠(kao)性,無需無損網絡支持 iWARP通過在傳輸層(ceng)實現(xian)RDMA,保留了部分性能優勢,但由(you)于TCP協議(yi)棧(zhan)的限制,失去了大部(bu)分(fen)RDMA的(de)性能優勢(shi) iWARPECN機制主(zhu)要用(yong)于優化TCP擁塞控制,而非(fei)實現無損傳輸,因此無法完全替代PFC

BBR(Bottleneck Bandwidth and Round-trip propagation time)擁塞(sai)控制(zhi)算法是(shi)Google提(ti)出的(de)創新方案(an),通過動(dong)態(tai)測(ce)量瓶頸鏈路帶寬和最小往返時延來優化發送速率 BBRv2版本(ben)進一步結合ECN,增強(qiang)了擁塞感知和公平性BBR的核(he)心優勢在于避免依賴丟包(bao)作(zuo)為(wei)擁塞信號,直(zhi)接優化帶寬(kuan)和時延,適(shi)用于(yu)需要穩定低(di)延遲的場景 。然而(er),BBR最初為(wei)TCP設(she)計,與RoCEv2RDMA協議結合仍處于研究階段(duan),且在淺緩沖(chong)區(qu)下可能產(chan)生(sheng)較(jiao)大(da)時延(yan)

三(san)、基(ji)于RTT的擁(yong)塞控制技(ji)術

BBR作為基(ji)于RTT的(de)擁(yong)塞控制技術,通過監測(ce)往返時(shi)間變(bian)化來預(yu)判擁(yong)塞并調(diao)整發送速(su)率(lv) BBRv2通過引入(ru)FaiRTT等改進算法,進一步提升了RTT公平(ping)性和帶寬利用率BBR的(de)最大帶寬時延積(BDP)控制使(shi)其能夠更接近Kleimrock最優工(gong)作(zuo)點,實現高吞吐量的同時保持低時延 

BBR的四個狀態(STARTUPDRAINPROBE_BWPROBE_RTT)使其能(neng)夠動態適應網絡(luo)狀(zhuang)況(kuang) 。在STARTUP狀態,BBR以指數形式增加(jia)發送(song)增益,探測(ce)最(zui)大可用帶(dai)寬(kuan);在DRAIN狀態,降低發送增(zeng)益以排空網絡中的擁塞;在PROBE_BW狀態,循環調整發送增益以探測帶寬(kuan);在(zai)PROBE_RTT狀(zhuang)態,發送(song)少(shao)量數(shu)據包(bao)以(yi)更新最(zui)小RTT 。這(zhe)種狀態機設(she)計使BBR能夠在不同網絡條(tiao)件下保持穩定性能。

然而,BBR在擁塞檢測(ce)不及時(shi)時(shi)可能(neng)產生(sheng)較(jiao)大(da)時(shi)延,且在緩(huan)沖區足(zu)夠大(da)時(shi),不同RTT流共享瓶(ping)頸鏈路時(shi)的公平(ping)性難(nan)以保證(zheng) BBRv2通(tong)過引入以(yi)RTT為(wei)減函(han)數的因子(zi)動態提(ti)高(gao)較小RTT流的競爭性,設置排隊時延閾(yu)值,改善了不同RTT流的反應靈敏(min)度(du),但(dan)在(zai)實際部署中仍(reng)需進一步驗證(zheng) 

四(si)、基(ji)于(yu)Credit的(de)擁塞控制方案

ExpressPass是一種端到端Credit機制,通過信(xin)用轉移進行帶寬分(fen)配和(he)細粒度(du)數據包調(diao)度(du)ExpressPass的(de)核心(xin)思(si)想是在發送數(shu)據包前使用Credit數據包控制(zhi)擁塞(sai),從而實現有限延遲(chi)和快速收斂。這種機制(zhi)能夠避(bi)免PFC的頭(tou)阻塞問題,但需要全(quan)網(wang)設(she)備支持,部署(shu)復雜(za)度較高

InfiniBand網絡采用基于Credit的逐(zhu)跳流控機制,從(cong)硬件層面保證數據無損,避免了緩沖區溢(yi)出(chu)分組丟失 InfiniBand交換(huan)機和網卡之間持續交換(huan)Credit信息(xi),確保發送端不會發送過量數據 。然而(er),InfiniBand是專用網絡(luo)技術(shu),需(xu)要(yao)專(zhuan)用(yong)硬件(jian),與以(yi)太網(wang)組件(jian)不通用(yong),組網(wang)成本高 

確定性網絡(TSNDetNet)通過(guo)資源預留、顯(xian)式路徑和服務保護(hu)等機(ji)制,從根(gen)本上(shang)避免了(le)擁塞(sai)丟包(bao) TSN在數據鏈路層(ceng)通過時鐘(zhong)同步、流量整形等機制為高優先級(ji)流量提(ti)供確(que)定性(xing)傳輸(shu)”時隙” DetNet在(zai)網絡層(ceng)實現確定傳輸路徑,提供時(shi)延、分(fen)組丟(diu)失和(he)抖動的最(zui)壞情(qing)況界限(xian) 。確定性網絡能(neng)夠(gou)實現零丟包(bao)和確定(ding)時(shi)延,但依賴專(zhuan)用(yong)硬件支持,且配置復雜度高,成本昂貴 

五、網絡升級與(yu)優化策略

帶寬升級是解決(jue)擁(yong)塞的(de)最直接方(fang)法(fa)。隨著25G/100G/400G帶寬(kuan)普(pu)及,網絡傳輸速度大幅(fu)提(ti)升,RTT減少,從而降低擁塞風(feng)險高(gao)帶寬直(zhi)接緩(huan)解擁塞(sai),但成(cheng)本較高(gao)且(qie)需配合流量管理才能避免局部擁(yong)塞

多路(lu)徑技術通過分(fen)散(san)流量(liang)降低單鏈路(lu)擁塞風險。谷歌(ge)Aquila架構采用全連接的dragonfly拓撲,結(jie)合(he)ECMP(等(deng)價(jia)多路徑)實現負載均衡,提高了網絡(luo)利用率 。亞馬遜的可(ke)擴展(zhan)可(ke)靠數據報文(SRD)和英偉達的(de)自適應路(lu)由(you)等方案,以數據(ju)包為粒度(du)將(jiang)流分散(san)到多個等(deng)(deng)價路徑上,網卡硬件實現多路徑傳(chuan)輸層(ceng)邏輯,包(bao)括擁(yong)塞感(gan)知的流量切(qie)分(fen)和收(shou)端亂序接收(shou)等(deng) 。多路(lu)徑技術能夠(gou)顯著提(ti)升(sheng)吞(tun)吐量,在RoCEv2環境中,吞吐量可提升(sheng)1.5~2 

SDN(軟件(jian)定(ding)義網(wang)絡)通過集中(zhong)式控制(zhi)器實現全局(ju)流量(liang)調度(du),能夠動態(tai)調整流量路(lu)徑和(he)優先級Google通過SDN將核心網絡(luo)帶寬利(li)用率提升至(zhi)100%,遠(yuan)超(chao)傳統網絡(luo)的30%~40% SDN的(de)優勢在(zai)于全局視角靈活(huo)控(kong)制,但需結合(he)ECN/PFC或專用協(xie)議才能(neng)實現無損(sun)網絡,且控制器開(kai)銷可能(neng)影響性能(neng) 

六、確定性(xing)網(wang)絡的突破與應(ying)用

確定性(xing)網絡在(zai)解決擁塞(sai)問題(ti)上展現出獨特優勢(shi)。中國信通院(yuan)測試顯(xian)示(shi),山東確定性(xing)網絡在(zai)2000公里(li)傳輸距離下(xia)實現端(duan)到端(duan)抖(dou)動小于30微秒(miao),滿足工(gong)業控(kong)制(zhi)場(chang)景對250微秒時(shi)延抖動(dong)的嚴苛(ke)要求 CENI試驗網構建的南京到貴陽長(chang)達2450公里(li)的試驗網,實現了(le)RDMA無損流量跨廣域傳輸,證明了確定性網絡在長距(ju)離場景中的可行性 

新華三通過確(que)定性網絡技術支持400G長距離無損(sun)傳輸,為(wei)”東(dong)數西算”工程(cheng)提(ti)供高吞(tun)吐需求保障(zhang) 。在數據(ju)庫(ku)異地(di)雙(shuang)活測試(shi)中,確定性網(wang)絡(luo)在600公里距離上不論網絡狀態(tai)如何,目標流時延均在6ms以內,且抖動無明顯(xian)變(bian)化,優(you)于傳統網絡的負載敏(min)感時延 

確定性(xing)網絡的核心(xin)技(ji)術包括:資源預留、服務保護和顯式路(lu)徑 。資源預(yu)留通過預(yu)留緩沖(chong)區空間或鏈路帶寬,解決確定性網(wang)絡流的延遲和丟(diu)包(bao)問(wen)題 ;服務(wu)保護采用報(bao)文復制(zhi)和消(xiao)除機制(zhi),解決隨機媒體錯(cuo)誤和設(she)備失(shi)效導致的丟包(bao)問題(ti) ;顯式(shi)路徑(jing)則(ze)為確(que)定(ding)性流(liu)提供定(ding)制化的(de)數據傳輸服務,避(bi)免路徑(jing)變(bian)化導致(zhi)的(de)性能(neng)波(bo)動(dong) 

七、不同技術方案性能(neng)對比

下表(biao)對(dui)PFCDCQCN和幾種替代技術在延遲、吞吐(tu)量(liang)和資源利用效率三個維(wei)度進(jin)行對比:

技術方案

延遲(chi)表現

吞(tun)吐量

資(zi)源利用效(xiao)率

主要局限性

PFC

低延遲(chi)但存在HoL阻塞,時延不確定性高

受限(xian)于隊列數(shu)量(liang),吞(tun)吐量(liang)低

高但存在死鎖(suo)風險(xian)

死鎖風險,不(bu)公平性(xing),配置(zhi)復雜

DCQCN

低延遲但(dan)依(yi)賴PFC,時延波(bo)動大

中等(deng)吞吐量,受ECN/PFC組合限制

中等(deng),需精確(que)配置

供應(ying)商(shang)實(shi)現差異,互操作性差

BBRv2

低(di)延遲(chi),避免丟包依賴

高吞(tun)吐量,但(dan)淺(qian)緩沖區下可(ke)能產生較(jiao)大時延

高,但(dan)需(xu)協議(yi)棧(zhan)適配

與(yu)RoCEv2結合案(an)例少,公平性(xing)問題

多路徑RDMA

依賴路徑長度,短路徑低(di)延(yan)遲

顯(xian)著提升(1.5-2)

高,分散(san)流量降低局部擁塞

需支持ECMP的交(jiao)換機和網卡

確(que)定(ding)性網(wang)絡

零抖(dou)動(30μs),確定時延

有(you)限(xian),受資(zi)源預留(liu)限(xian)制

高,減(jian)少重傳和隊列管理(li)開銷(xiao)

依(yi)賴專用硬件(jian),配置復雜,成本(ben)高

SDN動態(tai)調(diao)度

低延遲(chi),動態路徑選擇

理論可達100%,實際受協(xie)議棧限制

極高(gao),但(dan)增加控制器(qi)開銷

依賴集中控制,協議兼(jian)容(rong)性問題

確定性網絡在延遲(chi)抖動控制上(shang)表現最(zui)佳,但(dan)需要專用硬(ying)件支持,成本較高 多路徑RDMA在吞吐(tu)量提升方(fang)面最為顯著,通過流量分(fen)散(san)可將吞(tun)吐量提升(sheng)至單路徑的1.5~2SDN在(zai)資源利用效率上具有理論優勢,能(neng)夠實(shi)現接近100%的帶寬利用率(lv),但實際(ji)部署(shu)中需權衡協(xie)議棧兼容性(xing)和(he)控制器開銷 

八、場(chang)景適配(pei)與(yu)未來發(fa)展趨勢

不同(tong)擁塞控制(zhi)技術適用(yong)于(yu)不同(tong)場景。對于(yu)高性能計(ji)算(HPC)和分布式(shi)存儲等(deng)需(xu)要高吞吐量和低延遲的(de)場(chang)景(jing),RoCEv2結合多路徑技術(如亞馬遜SRD、英偉達自適應路(lu)由)可能(neng)是更優選擇,能(neng)夠顯著提(ti)升吞吐量并降低局(ju)部擁塞風險 

對(dui)于工業(ye)控制(zhi)、遠程手術(shu)和車聯網(wang)等(deng)對時(shi)延(yan)抖動要求極高的場(chang)景,確定性網絡(TSN/DetNet)提供了最佳解(jie)決(jue)方案,能(neng)夠保證有界(jie)低時延和零丟包,滿足這(zhe)些場景的(de)嚴(yan)苛要求 。例如,華為試(shi)驗(yan)數(shu)據(ju)顯示,采用VIP優(you)先(xian)級機制后,關鍵業務流(liu)量(liang)時(shi)延波動范圍壓(ya)縮至±5μs,遠優(you)于(yu)傳統(tong)網絡

對于(yu)需(xu)要與傳(chuan)統(tong)以太(tai)網兼容且成本敏感(gan)的場景(jing),BBRv2結合ECN可能(neng)(neng)是一個平衡選擇,能(neng)(neng)夠在不改變現有基礎設施的(de)情況下,優化網絡性能(neng)(neng)BBRv2的改進算(suan)法如FaiRTT,能夠提高較小RTT流的競(jing)爭性,改善較大RTT流(liu)和較小RTT流的反應靈(ling)敏度,實(shi)現相(xiang)對公平的帶寬分配和低時(shi)延傳輸 

未來發(fa)展趨勢顯(xian)示(shi),確定性網絡與(yu)算力網絡的融合將成為關鍵(jian)方向 。確定性算(suan)(suan)力網(wang)絡通過任(ren)務優(you)先級劃分、資源預留(liu)和(he)預調等(deng)(deng)機(ji)制,實(shi)現計算(suan)(suan)任(ren)務在約束時間(jian)內的確定性傳輸和(he)計算(suan)(suan) 。這種融合(he)將為AI大模(mo)型(xing)訓練、分布式存儲等新興(xing)應用(yong)提供更(geng)優(you)的網絡(luo)支持。

硬件加速(su)與協議創(chuang)新也將持續(xu)推動擁(yong)塞控制(zhi)技(ji)術的發展。隨著25G/100G/400G帶寬普及,網絡傳輸速(su)度(du)大(da)幅提(ti)升,但同時也帶來了新(xin)的擁塞挑(tiao)戰。高速存儲(chu)替代交換機Buffer等創新方(fang)案(an),可能為(wei)解決(jue)擁(yong)塞(sai)問(wen)題提供(gong)新的思路

九、結論與(yu)建議

沒有一(yi)種技術能夠完全替代PFCDCQCN,但針(zhen)對不同(tong)場景(jing),存在更優的選擇(ze)。對于(yu)需要高吞吐量(liang)的場景,多路徑(jing)RDMA技術可(ke)能是更(geng)優(you)選擇;對(dui)于(yu)對(dui)時延抖(dou)動要求極高的場景,確定性網(wang)絡提(ti)供(gong)了最佳解決方案;對于需要與傳統以太網兼容的(de)場景,BBRv2結合ECN可能(neng)是(shi)一個平衡選擇。

在實(shi)際部署中(zhong),應根據具體應用場景和需(xu)求(qiu),選擇合(he)適的擁塞控(kong)制(zhi)技術組合(he)。例(li)如,在AI大(da)模型訓練場景中,可以考慮結合確(que)定性網(wang)絡(luo)和多路徑技術,既(ji)保(bao)證關(guan)鍵數據流的確(que)定時(shi)延(yan),又提(ti)升整體網(wang)絡(luo)吞吐量。在金融交易(yi)等對低延遲要求極(ji)高的場景中,可以考慮采用BBRv2優化算法(fa),減少網絡(luo)擁塞帶來的時延波(bo)動 

隨著網絡技(ji)術的不斷發展,端(duan)網協同將(jiang)成(cheng)為解(jie)決擁(yong)塞問(wen)題的(de)新方(fang)向 。通(tong)過(guo)在網(wang)卡和交換機之間建立更(geng)(geng)緊密的協同機制(zhi),可以實現更(geng)(geng)精(jing)細的流量控制(zhi)和擁(yong)塞感知,進一步提升網(wang)絡性(xing)能。例(li)如,微軟AzurePFC-Relay方案通過專(zhuan)用中繼設(she)備,將高(gao)性(xing)能無(wu)損RDMA擴展(zhan)到(dao)長距離鏈路(lu),解決了(le)傳統(tong)PFC在廣域互聯場景中的局(ju)限性 

最(zui)終(zhong),解(jie)決(jue)以太(tai)網擁塞(sai)問題(ti)需(xu)要綜合考(kao)慮技術成(cheng)熟(shu)度、成(cheng)本(ben)效益和應用場景需(xu)求。在選擇擁塞控制技術時,不應(ying)盲目追求最新技術,而應(ying)基(ji)于實際業務需求和(he)網絡環境(jing),選擇最適合(he)的解決方案。隨著確定性網絡、多路徑技術和(he)SDN等(deng)技術(shu)的(de)不斷發展和成熟,未來數(shu)據中心網絡擁塞控制(zhi)將(jiang)更加靈活高效,為各(ge)類應用提(ti)供更好(hao)的(de)網絡支持。

文章來自個人專欄
文章(zhang) | 訂閱
0條評論
0 / 1000
請輸入你的評論
1
0