模型壓縮旨在幫助客戶在盡量不減少模型效果的前提下壓縮模型大小,進而提升模型在推理調用時的性能。
前置條件
資源準備:本功能僅支持910b硬件。
模型準備:您需要先對支持評估的模型完成模型精調后,再在評估頁面創建評估任務。
創建模型壓縮任務
您可通過以下方式使用:
入口1:進入“模型工具”>“模型壓縮”菜單,進入評估任務列表,點擊【創建壓縮任務】,進入創建頁面;
入口2:進入“智算資產”>“我的模型”菜單,在我的模型菜單頁面中,找到支持壓縮的模型,點擊【壓縮】按鈕,進入到創建頁面。
進入創建壓縮任務頁面后,填寫相關配置:
類型
字段
說明
基本信息
任務名稱
壓縮任務名稱,不超過20個字符
任務描述
該任務的描述,300個字符以內
模型配置
選擇源模型
此處支持選擇用戶希望壓縮的模型,目前僅支持Llama3-8B-Instruct基座模型精調出的模型
模型創建方式
選擇壓縮后模型的保存方式,支持保存為已有模型新版本(默認為最新版本)或保存為新模型(默認V1版本)
選擇已有模型/新模型名稱
選擇已有模型:同一模型各版本的基礎模型需保持一致,已自動過濾不符合要求的模型;
新模型名稱:保存為新模型的名稱
壓縮策略配置
壓縮方法
選擇壓縮方法,支持W8A16與稀疏化:
W8A16:WxAxCx中W、A、C分別代表模型權重(weight)、激活(activation)和鍵值緩存(kv cache),數字x代表模型壓縮后相應部分的比特數。模型壓縮過程后,高比特浮點數會映射到低比特量化空間,從而達到降低顯存占用、提升推理性能等目的。 模型的推理性能收益均需要通過實際測試獲得,表中策略類型僅做參考。W8A16的權重使用8位整數量化,但是激活值仍然保留較高的精度,通常是使用16位浮點數(FP16)或者混合精度(MixedPrecision)。這種方式相比于W8A8,可能會提供更好的模型準確性,但是代價是在激活值上保留了更高的精度,因此可能不會像 W8A8那樣大幅度減少內存使用。
稀疏化:是指在深度學習模型中通過將模型參數中的一些元素設為零來減少模型的計算量和存儲需求,從而實現模型輕量化的目的。稀疏化不僅能有效地壓縮模型,還能夠加速推理過程,尤其是在硬件資源有限的設備上(如嵌入式系統或移動設備)。通過算法判斷模型權重中每個元素對精度結果的重要性,并將模型權重中對最終精度影響小的權重值置零的過程。
資源配置
集群
選擇適合的集群
隊列
選擇可用資源配額
資源規格
選擇資源規格類型,不同的算力規格對應不同的價格
點擊提交,創建壓縮任務。
查看壓縮任務
查看任務詳情:在任務列表點擊任務名稱,進入詳情頁面,可查看任務配置及任務日志。
操作:可在列表操作列中點擊【詳情】以查看任務詳情,點擊【停止】以停止任務。
獲取壓縮結果:壓縮任務運行完成后,壓縮后的模型會自動保存到用戶指定的模型管理中的位置。可以通過開發機掛載模型、或者下載模型來查看模型文件本身。壓縮后的模型可以直接通過我的服務進行服務部署,部署為推理效果更優的大模型服務。