場景一:自動駕駛訓練
場景說明
自動駕駛的每一個業務階段都會涉及到 AI 算法和算力的參與,機器視覺、深度學習、傳感器技術等均在自動駕駛領域發揮著重要的作用。隨著自動駕駛的快速發展,現在每臺測試車每天將產生數十 TB 數據,隨之而來就是要面臨諸多存儲挑戰:
海量小文件元數據壓力大
存儲性能局限
數據管理困難
產品優勢
并行文件服務 HPFS 通過可擴展的元數據架構可支持百億級別的文件數量,同時提升海量文件并發訪問的性能,滿足自動駕駛海量數據處理的業務需求和性能要求,充分適配上層 AI 算力。
場景二:影視渲染
場景說明
在渲染場景中,設計師將素材上傳至工作室掛載的并行文件系統中,即可給渲染所需的數百臺高性能計算服務器提供并發的數據訪問,極大提升整體工作效率。
產品優勢
并行文件 HPFS 為影視渲染場景提供最高千萬級 IOPS 和 TBps 吞吐,支持在線擴容,業務無需中斷。
影視渲染中,文件系統主要用于多個客戶端中共享文件場景,客戶端的應用程序并發訪問文件是高頻操作,并行文件服務HPFS通過分布式文件鎖保證文件一致性,同時大幅提高多客戶端讀寫同一文件的性能。
場景三:AI訓練與推理
場景說明
AI 智算平臺建設中,在以下場景中會遇到存儲挑戰:
海量數據的存儲和處理,包括采集導入、清洗、轉換、標注、共享等,這里對存儲的要求主要是高吞吐和大容量。
模型開發,主要場景包括實驗管理、交互式開發和效果評估等。對存儲的要求更多集中在 POSIX 兼容性、可靠性等方面。
模型訓練的主要場景,一是訓練數據的讀取,二是為了容錯做的 checkpoint 的保存和加載。數據集的部分就是要盡量讀得快,減少計算對 I/O 的等待,而 checkpoint 主要要求高吞吐、減少訓練中斷的時間。
模型推理,需要把訓練完的模型快速分發部署到線上,產生業務效果。而這個過程會高頻、反復發生,要求高并發、高吞吐。
將 HPFS 、NAS 等多個存儲產品組合與 GPU 云主機、彈性裸金屬等計算集群無縫對接。通過容器化部署服務實現資源彈性調度,提供超高吞吐和超高 IOPS 能力,支持混合云、線下和云上部署,快速構建 AI 基礎環境。
產品優勢
并行文件服務 HPFS 助力客戶構建高速大模型訓練平臺,根據不同 AI 業務流程特點,調用不同的存儲服務能力,滿足預處理、訓練、仿真等各階段對數據存儲能力的要求。
HPFS 能夠顯著提升訓練數據讀取和 checkpoint 回寫速度,降低數據處理的延遲,使得客戶在 GPU 故障時更快將模型恢復到之前的檢查點,提高企業 GPU 卡的利用率,更高效地將模型精度達到生產水平并推向市場。HPFS 幫助企業降低在 AI 訓練中的成本投入,實現更高的投資回報,滿足企業在 AI 領域中對存儲性能的高要求。