1 背景
1.1 大模型算力需求
大模型因其參數規模龐大、結構復雜,通常需要強大的計算資源來支持其推理過程,這使得算力成為大模型應用的核心要素。隨著DeepSeek-R1模型的問世,各行各業紛紛展開了關于如何接入大模型能力的廣泛調研與探索,市場對大模型推理算力的需求呈現出爆發式增長的趨勢。例如在醫療、金融、零售等領域,企業迫切希望通過接入DeepSeek大模型來提升決策效率和業務能力,從而推動行業的創新發展。在這一背景下,算力的供給和優化成為推動大模型落地應用的重要因素。
近年來,CPU制程和架構的提升以及AMX(Advanced Matrix Extensions)加速器的面世帶來了算力的快速提升。英特爾對大模型推理等多個AI領域持續深入研究,提供全方位的AI軟件支持,兼容主流AI軟件且提供多種軟件方式提升CPU的AI性能。目前,已有充分的數據顯示CPU完全可以用于大模型推理場景。
1.2 CPU算力用于大模型推理的適用場景
CPU適用于以下大模型推理場景:
場景1: 大模型推理需要的內存超過了單塊GPU的顯存容量,需要多塊或更高配GPU卡,采用CPU方案,可以降低成本;
場景2: 應用請求量小,GPU利用率低,采用CPU推理,資源劃分的粒度更小,可有效降低起建成本;
場景3: GPU資源緊缺,CPU更容易獲取,且可以勝任大模型推理。
2 天翼云EMR實例DeepSeek-R1-Distill-Qwen-7B蒸餾模型部署實踐
本節內容主要介紹如何在天翼云EMR實例上,基于Intel? xFasterTransformer加速庫和vllm推理引擎完成模型部署,并展示相關性能指標。
2.1 服務部署
為了方便用戶使用,天翼云聯合英特爾制作了一鍵部署的云主機鏡像,內置DeepSeek-R1-Distill-Qwen-7B模型、vLLM推理框架、xFT加速庫以及open-webui前端可視環境。您可在天翼云控制臺選擇下列資源池和鏡像,開通云主機進行體驗。
| 類型 | 可用資源 |
|---|---|
| 可用資源池 | 華東-華東1-az2、華東-華東1-az3 |
| 可用規格 | c8e系列(最低內存需求32G) |
| 可用鏡像 | DeepSeek-vLLM-英特爾AMX推理加速(CPU)![]() |
完成云主機開通后,推理服務會在5分鐘內自動啟動,您無需進行任何其他操作。
注意如需在云主機外訪問服務,您需要綁定彈性IP,并在安全組內放行22/3000/8000端口。
2.2 模型使用
2.2.1 open-webui前端使用
鏡像已內置open-webui,并已完成和vllm的連接配置,可直接通過以下地址進行訪問:
//[彈性IP]:3000/
注意1.首次打開頁面時,您需要先完成管理員注冊,以進行后續的用戶管理。注冊數據均保存在云實例的/root/volume/open-webui目錄下。
2.如果首次打開對話頁面時沒有模型可供選擇,請您稍等幾分鐘讓模型完成加載即可。
2.2.2 vllm api調用
鏡像內置vllm服務可直接通過如下地址訪問:
# 根路徑
//[彈性IP]:8000/
# 查詢現有模型
//[彈性IP]:8000/v1/models
# 其他api接口參閱vllm文檔
注意vllm服務配置有API_KEY,您可在云實例的/root/recreate_container.sh文件開頭查看到當前值,并可進行修改以確保服務安全。
2.3 性能指標
借助于英特爾AMX的加速能力,本推理服務能夠取得顯著的性能提升,天翼云完成測試并給出參考指標如下:
基本參數
● vcpu數:24(物理核12)
● 內存:64GB
● 硬盤:60G 通用型SSD
● 模型:DeepSeek-R1-Distill-Qwen-7B(bf16)
● batch size:1
● 輸入token個數:30-60
● 輸出token個數:256
性能數據
平均token生成速率:
首token時延:
在天翼云c8e系列24vcpu云主機上,啟用AMX加速能力后,DeepSeek 7B蒸餾模型(BF16)推理速度能夠超越9token/s,滿足日常使用需求。
3 基于英特爾?至強?6處理器部署滿血版DeepSeek-R1 671B實踐
3.1 性能指標
DeepSeek R1 671B 滿血版模型以其卓越的性能,為用戶帶來了極致的效果體驗,不過其部署成本也不容小覷。若采用傳統的 GPU 部署方式,需要 8 - 16 張 GPU 才能提供足夠的支持,這無疑大幅增加了硬件購置、能耗以及維護等方面的成本。
在這樣的背景下,天翼云基于英特爾?提供的至強?6處理器服務器進行了DeepSeek R1 671B滿血版Q4_K_M模型的部署嘗試,測試結果如下:
- 1-instance 1-socket:
平均吞吐性能9.7~10 token/s
- 2-instance 1-socket:
平均7.32 token/s和7.38token/s, 共14.7token/s
從上面測試數據可以看到,采用單實例單socket部署下,DeepSeek R1 671B滿血版模型可達到平均9.7~10 token/s的吞吐量,而在雙實例部署模式中,總體吞吐量提升至14.7 token/s。單顆CPU系統的吞吐性能可以達到普通用戶正常使用的需要。
3.2 英特爾?至強?6處理器簡介
英特爾?至強?CPU 為 DeepSeek R1 671B 模型的部署提供了一個極具競爭力的方案。英特爾?至強?CPU 具備支持 T 級超大內存的能力,這使得它在權重存儲與加載方面表現高效。對于像 DeepSeek R1 671B 這樣的超大模型,其所需的顯存容量在多卡 GPU 配置下才能滿足,而英特爾?至強?CPU 能夠憑借其強大的內存支持能力,為該模型提供良好的運行環境。
此外,DeepSeek R1 模型采用的 MOE(Mixture of Experts)結構,通過參數稀疏化的方式,使得在單 token 推理時僅需激活少量專家參數。這種特性顯著降低了推理過程中的算力要求,與 CPU 的計算特點相契合,使得模型在 CPU 系統上的運行更加高效。這意味著在英特爾 ? 至強 ?CPU 上部署 DeepSeek R1 671B 模型,不僅能夠充分發揮模型的性能優勢,還能有效降低部署成本,避免了對大量 GPU 的依賴。
如需復現以上性能測試結果,請參看附錄2
總結
通過本次實踐,無論是在天翼云EMR云實例上結合xFasterTransformer部署DS R1 distill Qwen-7B蒸餾模型,還是基于英特爾? 至強? 6處理器部署滿血版DeepSeek-R1 671B模型,均驗證了CPU系統在DeepSeek大模型推理上的可行性和符合業界普遍要求的性能表現。CPU系統不僅能夠靈活應對不同規模的模型需求,無論是輕量化蒸餾模型還是全功能滿血模型,都能高效滿足用戶場景需求,提供了一種低成本、經濟高效的解決方案。
附錄1 英特爾? 至強? 可擴展處理器與AI加速技術
最新英特爾? 至強? 可擴展處理器產品
英特爾第五代? 至強? 可擴展處理器(代號 Emerald Rapids)——為AI加速而生
第五代英特爾? 至強? 處理器以專為AI工作負載量身定制的設計理念,實現了核心架構和內存系統的雙重飛躍。其64核心設計搭配高達320MB的三級緩存(每核心由1.875MB提升至5MB),相較上代緩存容量實現近三倍增長,為大規模并行AI推理提供充裕的本地數據存儲空間。與此同時,處理器支持DDR5-5600高速內存,單路最大4TB的容量保證了大數據處理時的帶寬和延遲優勢。基于這些硬件提升,Emerald Rapids整體性能較上一代提升21%,AI推理性能平均提升42%,在大語言模型推理場景中可實現最高1.5倍的性能加速,同時大幅降低總擁有成本達77%。
英特爾? 至強?6處理器(代號 GNR Granite Rapids)——引領CPU AI算力革新
全新GNR處理器專為應對人工智能、數據分析及科學計算等計算密集型任務而設計。該產品在內核數量、內存帶寬及專用AI加速器方面均實現重大突破:
- 核心與性能:每CPU配備多達128個性能核心,單路核心數較上一代翻倍,同時平均單核性能提升達1.2倍、每瓦性能提升1.6倍,進一步強化了CPU在大模型推理中的獨立處理能力;
- AI加速功能:內置英特爾? 高級矩陣擴展(AMX)新增對FP16數據類型的支持,使得生成式AI和傳統深度學習推理任務均能獲得顯著加速;
- 內存與I/O突破:支持DDR5-6400內存及英特爾首款引入的Multiplexed Rank DIMM (MRDIMM) 技術,有效將內存帶寬提升至上一代的2.3倍;同時,高達504MB的三級緩存和低延遲設計確保數據能夠更快加載,為復雜模型訓練和推理縮短響應時間。
英特爾? 至強? 6處理器不僅通過更多的核心和更高的單線程性能提升了AI大模型推理能力,同時也能夠作為機頭CPU為GPU和其他加速器提供高速數據供給,進一步縮短整體模型訓練時間。在滿足混合工作負載需求的同時,其TCO平均降低30%,大模型推理加速最高可達2.4倍。
無論是第五代至強還是全新的至強6處理器,英特爾均通過在核心架構、緩存系統、內存技術和專用AI加速器方面的全面革新,提供了業界領先的AI計算支持。這兩款產品為數據中心和高性能計算平臺在AI推理、訓練以及多樣化工作負載下提供了強大而高效的算力保障
英特爾全方位的AI軟件生態支持
英特爾及其合作伙伴憑借多年AI積累,圍繞至強?可擴展處理器打造了完善的軟件生態:廣泛支持主流開源框架,通過插件優化及多樣化開源工具鏈,使用戶在x86平臺上能夠輕松開發、部署通用AI應用,無需手動調整,同時確保從終端到云的全程安全保護。
此外,至強?處理器內置多種AI加速指令(如AVX-512、AMX),使得任何兼容軟件均可直接調用加速功能。開發者可免費下載英特爾分發版工具、庫及開發環境,充分利用這些內置加速器應對各類AI管線需求。結合多樣化硬件優勢與開放生態,英特爾通過經濟、可擴展的方案,將AI能力無縫延伸至云端與邊緣。
其中,xFasterTransformer(xFT)是英特爾官方開源的AI推理框架,專為大語言模型在至強?平臺上深度優化。xFT不僅支持多種數據精度(FP16、BF16、INT8、INT4),還能利用多CPU節點實現分布式部署,顯著提升推理性能并降低成本。其簡單的安裝和與主流Serving框架(如vLLM、FastChat、MLServer、MindSpore Transformer、PaddlePaddle)的兼容性,幫助用戶快速加速大模型應用。在3.1節中基于天翼云EMR云主機和xFasterTransformer加速引擎實現了對與DeepSeek R1蒸餾模型的高效推理部署。
附錄2 CPU環境下部署DeepSeek-R1 671B模型實踐
環境配置
硬件配置
● CPU:Intel? Xeon? 6980P Processor, 128core 2.00 GHz
● 內存 24*64GB DDR5-6400
● 存儲 1TB NVMe SSD
軟件環境
● OS: Ubuntu 22.04.5 LTS
● Kernel: 5.15.0-131-generic
● llama.cpp: github bd6e55b
● cmake: 3.22.0
● gcc/g++: 11.4.0
● Python: 3.12.8
● git: 2.34.1
BIOS?關閉sub NUMA相關配置。
注意版本是指本測試中服務器上安裝的版本,并?要求的最低版本。
部署步驟
1. 安裝llama.cpp
參考llama.cpp官?的安裝說明,我們的步驟如下。
# 下載llama.cpp推理框架源碼
git clone //github.com/ggerganov/llama.cpp.git
cd llama.cpp
# 預先準備intel oneapi庫
source /opt/intel/oneapi/setvars.sh
# 基于oneapi庫對llama.cpp進行編譯
cmake -B build -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=Intel10_64lp -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx -DGGML_NATIVE=ON
cmake --build build --config Release -j$nproc
2. 下載模型?件
我們直接使用了社區制作的DeepSeek 671B滿血模型的Q4量化版,您也可以下載DeepSeek官方BF16版本,并通過 llama.cpp 提供的腳本轉換為 GGUF 格式。
社區提供了從 1bit 到 8bit 不同版本的量化選項,具體區別可以參考社區網頁。我們選擇了使用最受歡迎的 Q4_K_M 版本。如果追求最佳效果,建議使用 Q8_0 版本。
# 下載unsloth制作的社區版量化模型(hf-mirror和modelscpoe源都可)
git clone --no-checkout //hf-mirror.com/unsloth/DeepSeek-R1-GGUF
cd DeepSeek-R1-GGUF/
# 建議nohup執行, 預計至少需要半天時間, 同時確保磁盤容量足夠400G.
git lfs pull --include="DeepSeek-R1-Q4_K_M/*"
Q4_K_M 版本的文件大小為 404.43GB,下載過程可能會比較耗時。下載完成后,您可以在 DeepSeek-R1-Q4_K_M 目錄下找到一系列 .gguf 文件,例如 DeepSeek-R1-Q4_K_M-00001-of-00009.gguf。
3. 模型加載和運?
使用 llama-cli,指定模型文件路徑并啟用交互模式,DeepSeek R1 滿血版就可以在 CPU 上順利運行了。
build/bin/llama-cli -m /tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of- 00009.gguf -i
下面用幾個示例展現DeepSeek-R1 671B滿血版強大的的reasoning推理能力:
測試模型自我認知:
驗證推理能?的經典“草莓”問題:
“等燈等燈”的意思:
4.性能及優化
那么CPU運?滿?版R1的性能怎么樣呢?我們做了相關性能測試。對于Q4_K_M模型,使?如下命令進行:
export MODEL_PATH=/tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of-00009.gguf
numactl -C 0-127 -m 0 ./build/bin/llama-cli -m $MODEL_PATH -t 128 --temp 0.6 -s 42 -no-cnv --no-kv-offload -ctk q4_0 -c 8192 -n 128 -p "<|User|>以孤獨的夜行者為題寫一篇750字的散文,描繪一個人在城市中夜晚漫無目的行走的心情與所見所感,以及夜的寂靜給予的獨特感悟。<|Assistant|>"
這?使?numactl來指定使?單路CPU (0-127, 6980P有128核),以及這?路CPU的內存節點(numa0),避免跨numa傳輸以獲取最佳性能。
llama.cpp是本地編譯的,編譯的時候使?Intel oneAPI可以有效提升它的性能。英特爾嘗試?了oneAPI?的Intel C++編譯器和數學加速庫MKL,結合jemalloc內存管理優化,推理速度可以達到每秒9.7~10詞元(TPS, tokens per second)。
上?的實驗是在單路CPU上進?的,我們?在兩路CPU上各?獨?啟動1個模型實例,總速度可以達到14.7TPS (7.32TPS+7.38TPS)。
再進?步,英特爾觀察到基于現有的llama.cpp軟件?案,在CPU平臺沒有實現?效的專家并?和張量并?等優化,CPU核?利?率和帶寬資源沒有充分發揮出來,6980P的128核?運?1個模型還有不少性能儲備。預計可以繼續增加實例數來獲得更好的總TPS。
另外,通常情況下,CPU的SNC (Sub-NUMA Clustering)設置可以獲得更?的帶寬,但是受限于軟件并未優化實現良好匹配,此次實驗關閉了SNC測試。
以下?式的系統配置也有助于提升性能:
● BIOS?關閉AMP prefetcher
● ?cpupower打開CPU的pstate性能模式
● 提?CPU的uncore頻率
● 關閉超線程(Hyper-Threading)
注意為了加快試驗進度,我們限制了詞元輸出?度(-n 128)。經過驗證,增加輸出?度(例如-n 512)對于生成性能指標的影響不大。
返回DeepSeek專題導航。
