CTFlashCkpt介紹
更新時間 2025-01-10 09:49:53
最近更新時間: 2025-01-10 09:49:53
分享文章
這里介紹天翼云自研的CTFlashCkpt(CT Flash Checkpoint )大模型存儲加速軟件包的相關信息。
CTFlashCkpt是由一體化計算加速平臺·異構計算平臺提供的針對大模型訓練場景提供的高性能checkpoint框架,實現接近于0的模型狀態保存時間開銷 ,將訓練阻塞時間降低到最小。目前CTFlashCkpt支持原生pytorch訓練、英偉達訓練框架Megatron-LM和華為昇騰ModelLink訓練框架,本文為您介紹CTFlashCkpt相關技術原理和接入操作。
背景信息
在大規模分布式訓練中,由于軟硬件故障的影響,任務可能會遭遇中斷或需要重啟。為了應對這種情況,通常會采用定期保存Checkpoint的方法來記錄和恢復訓練進度。由于Checkpoint本身的耗時與模型的大小成正比,隨著大模型參數量和訓練數據量的增長,訓練的時間開銷也在不斷增長。例如,對于百億、千億參數的大模型,單次Checkpoint的保存時間開銷通常在幾分鐘到十幾分鐘之間。并且使用英偉達發布的Megatrong-LM或者原生的Pytorch訓練模型的時候,需要中斷訓練進程,造成算力資源的浪費。因此,在訓練過程中需要以一種可靠的方式來減少時間消耗和算力浪費。
CTFlashCkpt采用異步存儲機制加快訓練速度,減少訓練中斷帶來的影響,提升GPU的有效使用率。