再獲國際認可!天翼云論文被IPCCC收錄
2024-10-30
近日,由天翼云彈性存儲創新實驗室撰寫的《RESD: High-Performance RDMA-enabled Control Plane for NVMe Shared-Disk Cluster》論文被The 43rd International Performance Computing and Communications Conference (IPCCC 2024) 長文收錄。
IPCCC是高性能系統領域較高水平的國際學術會議,迄今為止已經成功舉辦42屆,在國內外學術界享有較高的聲譽和廣泛的影響力,也是中國計算機學會CCF推薦的國際會議之一。近兩年的論文接收率分別為26%(2023年)、23.9%(2022年)。此次彈性存儲創新實驗室團隊所著論文被收錄,代表著天翼云技術創新能力再獲業界認可。
該論文作為天翼云新一代XSSD產品的預研成果,主要探索了共享盤場景下高性能控制平面的實現方案。共享盤是云硬盤產品的一種高級特性,通過將一塊云硬盤掛載到多個計算節點以提高客戶系統訪問的可用性和性能,并基于分布式QoS能力和I/O圍欄協議來保證產品的SLO(服務等級目標)和數據一致性。
然而,基于現有傳統TCP網絡的共享盤控制平面實現方案不再能滿足XSSD產品百萬級IOPS和微秒級延時需求,盡管XSSD產品采用的RDMA協議通過協議棧卸載到網卡已降低了通信延遲,但基于傳統RPC通信模式的RDMA協議棧仍會給XSSD產品帶來不可小覷的性能開銷。
作為云服務國家隊,天翼云堅持核心技術自主攻關,針對現有方案的不足,該論文創新性提出了基于One-Sided RDMA技術的NVMe共享盤集群控制平面(a novel RDMA-enabled control plane for NVMe Shared-Disk Cluster,簡稱RESD)。
RESD整體架構如圖1所示。首先,RESD提出了一種基于分布式令牌桶的QoS架構。通過將令牌桶存儲到RESD-Bucket數據結構中,并借助One-Sided RDMA操作實現將所有令牌操作卸載到RDMA網卡(操作如圖2所示)。這種方法有效地減少了共享盤的I/O延遲,減輕了服務器負載,并增強了整體系統的可擴展性。
圖1 RESD系統架構
圖2 RESD QoS操作流程
其次,RESD還針對XSSD產品使用的NVMe協議開發了對分布式NVMe PR協議的支持,為共享盤集群提供I/O圍欄能力,并通過應用One-Sided RDMA技術,顯著減少了延遲。
此外,該論文中還設計了動態QoS令牌分發算法。該算法通過監控全局令牌消耗率,以調節集群內客戶端的令牌獲取速度,并從閑置客戶端回收未使用的令牌,有效減少令牌浪費,提高共享盤集群的吞吐量。
該論文的實驗表明,RESD系統在操作延遲、IOPS、QoS均衡性等多個方面均表現優異,且在不同分布的測試數據集上都具有穩定性能。
科技創新是發展新質生產力的核心要素。面向未來,天翼云將秉持央企使命責任,發揮數字中國建設主力軍作用,持續推進云存儲等云計算技術攻關,筑牢國云智算底座,以科技創新引領產業發展。