亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

1 背景

1.1 大模型算力需求

大模型因其參數規模龐大、結構復雜，通常需要強大的計算資源來支持其推理過程，這使得算力成為大模型應用的核心要素。隨著DeepSeek-R1模型的問世，各行各業紛紛展開了關于如何接入大模型能力的廣泛調研與探索，市場對大模型推理算力的需求呈現出爆發式增長的趨勢。例如在醫療、金融、零售等領域，企業迫切希望通過接入DeepSeek大模型來提升決策效率和業務能力，從而推動行業的創新發展。在這一背景下，算力的供給和優化成為推動大模型落地應用的重要因素。

近年來，CPU制程和架構的提升以及AMX（Advanced Matrix Extensions）加速器的面世帶來了算力的快速提升。英特爾對大模型推理等多個AI領域持續深入研究，提供全方位的AI軟件支持，兼容主流AI軟件且提供多種軟件方式提升CPU的AI性能。目前，已有充分的數據顯示CPU完全可以用于大模型推理場景。

1.2 CPU算力用于大模型推理的適用場景

CPU適用于以下大模型推理場景：

場景1: 大模型推理需要的內存超過了單塊GPU的顯存容量，需要多塊或更高配GPU卡，采用CPU方案，可以降低成本；

場景2: 應用請求量小，GPU利用率低，采用CPU推理，資源劃分的粒度更小，可有效降低起建成本；

場景3: GPU資源緊缺，CPU更容易獲取，且可以勝任大模型推理。

2 天翼云EMR實例DeepSeek-R1-Distill-Qwen-7B蒸餾模型部署實踐

本節內容主要介紹如何在天翼云EMR實例上，基于Intel? xFasterTransformer加速庫和vllm推理引擎完成模型部署，并展示相關性能指標。

2.1 服務部署

為了方便用戶使用，天翼云聯合英特爾制作了一鍵部署的云主機鏡像，內置DeepSeek-R1-Distill-Qwen-7B模型、vLLM推理框架、xFT加速庫以及open-webui前端可視環境。您可在天翼云控制臺選擇下列資源池和鏡像，開通云主機進行體驗。

類型	可用資源
可用資源池	華東-華東1-az2、華東-華東1-az3
可用規格	c8e系列（最低內存需求32G）
可用鏡像	DeepSeek-vLLM-英特爾AMX推理加速(CPU) ?

完成云主機開通后，推理服務會在5分鐘內自動啟動，您無需進行任何其他操作。

注意
如需在云主機外訪問服務，您需要綁定彈性IP，并在安全組內放行22/3000/8000端口。

2.2 模型使用

2.2.1 open-webui前端使用

鏡像已內置open-webui，并已完成和vllm的連接配置，可直接通過以下地址進行訪問:

//[彈性IP]:3000/

注意
1.首次打開頁面時，您需要先完成管理員注冊，以進行后續的用戶管理。注冊數據均保存在云實例的/root/volume/open-webui目錄下。
2.如果首次打開對話頁面時沒有模型可供選擇,請您稍等幾分鐘讓模型完成加載即可。

2.2.2 vllm api調用

鏡像內置vllm服務可直接通過如下地址訪問：

# 根路徑
//[彈性IP]:8000/
# 查詢現有模型
//[彈性IP]:8000/v1/models
# 其他api接口參閱vllm文檔

注意
vllm服務配置有API_KEY，您可在云實例的/root/recreate_container.sh文件開頭查看到當前值，并可進行修改以確保服務安全。

2.3 性能指標

借助于英特爾AMX的加速能力，本推理服務能夠取得顯著的性能提升，天翼云完成測試并給出參考指標如下：

基本參數

● vcpu數：24（物理核12）

● 內存：64GB

● 硬盤：60G 通用型SSD

● 模型：DeepSeek-R1-Distill-Qwen-7B（bf16）

● batch size：1

● 輸入token個數：30-60

● 輸出token個數：256

性能數據

平均token生成速率：

首token時延：

在天翼云c8e系列24vcpu云主機上，啟用AMX加速能力后，DeepSeek 7B蒸餾模型（BF16）推理速度能夠超越9token/s，滿足日常使用需求。

3 基于英特爾?至強?6處理器部署滿血版DeepSeek-R1 671B實踐

3.1 性能指標

DeepSeek R1 671B 滿血版模型以其卓越的性能，為用戶帶來了極致的效果體驗，不過其部署成本也不容小覷。若采用傳統的 GPU 部署方式，需要 8 - 16 張 GPU 才能提供足夠的支持，這無疑大幅增加了硬件購置、能耗以及維護等方面的成本。

在這樣的背景下，天翼云基于英特爾?提供的至強?6處理器服務器進行了DeepSeek R1 671B滿血版Q4_K_M模型的部署嘗試，測試結果如下:

1-instance 1-socket：

平均吞吐性能9.7~10 token/s

2-instance 1-socket：

平均7.32 token/s和7.38token/s，共14.7token/s

從上面測試數據可以看到，采用單實例單socket部署下，DeepSeek R1 671B滿血版模型可達到平均9.7～10 token/s的吞吐量，而在雙實例部署模式中，總體吞吐量提升至14.7 token/s。單顆CPU系統的吞吐性能可以達到普通用戶正常使用的需要。

3.2 英特爾?至強?6處理器簡介

英特爾?至強?CPU 為 DeepSeek R1 671B 模型的部署提供了一個極具競爭力的方案。英特爾?至強?CPU 具備支持 T 級超大內存的能力，這使得它在權重存儲與加載方面表現高效。對于像 DeepSeek R1 671B 這樣的超大模型，其所需的顯存容量在多卡 GPU 配置下才能滿足，而英特爾?至強?CPU 能夠憑借其強大的內存支持能力，為該模型提供良好的運行環境。

此外，DeepSeek R1 模型采用的 MOE（Mixture of Experts）結構，通過參數稀疏化的方式，使得在單 token 推理時僅需激活少量專家參數。這種特性顯著降低了推理過程中的算力要求，與 CPU 的計算特點相契合，使得模型在 CPU 系統上的運行更加高效。這意味著在英特爾 ? 至強 ?CPU 上部署 DeepSeek R1 671B 模型，不僅能夠充分發揮模型的性能優勢，還能有效降低部署成本，避免了對大量 GPU 的依賴。

如需復現以上性能測試結果，請參看附錄2

總結

通過本次實踐，無論是在天翼云EMR云實例上結合xFasterTransformer部署DS R1 distill Qwen-7B蒸餾模型，還是基于英特爾? 至強? 6處理器部署滿血版DeepSeek-R1 671B模型，均驗證了CPU系統在DeepSeek大模型推理上的可行性和符合業界普遍要求的性能表現。CPU系統不僅能夠靈活應對不同規模的模型需求，無論是輕量化蒸餾模型還是全功能滿血模型，都能高效滿足用戶場景需求，提供了一種低成本、經濟高效的解決方案。

附錄1 英特爾? 至強? 可擴展處理器與AI加速技術

最新英特爾? 至強? 可擴展處理器產品

英特爾第五代? 至強? 可擴展處理器（代號 Emerald Rapids）——為AI加速而生

第五代英特爾? 至強? 處理器以專為AI工作負載量身定制的設計理念，實現了核心架構和內存系統的雙重飛躍。其64核心設計搭配高達320MB的三級緩存（每核心由1.875MB提升至5MB），相較上代緩存容量實現近三倍增長，為大規模并行AI推理提供充裕的本地數據存儲空間。與此同時，處理器支持DDR5-5600高速內存，單路最大4TB的容量保證了大數據處理時的帶寬和延遲優勢。基于這些硬件提升，Emerald Rapids整體性能較上一代提升21%，AI推理性能平均提升42%，在大語言模型推理場景中可實現最高1.5倍的性能加速，同時大幅降低總擁有成本達77%。

英特爾? 至強?6處理器（代號 GNR Granite Rapids）——引領CPU AI算力革新

全新GNR處理器專為應對人工智能、數據分析及科學計算等計算密集型任務而設計。該產品在內核數量、內存帶寬及專用AI加速器方面均實現重大突破：

核心與性能：每CPU配備多達128個性能核心，單路核心數較上一代翻倍，同時平均單核性能提升達1.2倍、每瓦性能提升1.6倍，進一步強化了CPU在大模型推理中的獨立處理能力；
AI加速功能：內置英特爾? 高級矩陣擴展（AMX）新增對FP16數據類型的支持，使得生成式AI和傳統深度學習推理任務均能獲得顯著加速；
內存與I/O突破：支持DDR5-6400內存及英特爾首款引入的Multiplexed Rank DIMM (MRDIMM) 技術，有效將內存帶寬提升至上一代的2.3倍；同時，高達504MB的三級緩存和低延遲設計確保數據能夠更快加載，為復雜模型訓練和推理縮短響應時間。

英特爾? 至強? 6處理器不僅通過更多的核心和更高的單線程性能提升了AI大模型推理能力，同時也能夠作為機頭CPU為GPU和其他加速器提供高速數據供給，進一步縮短整體模型訓練時間。在滿足混合工作負載需求的同時，其TCO平均降低30%，大模型推理加速最高可達2.4倍。

無論是第五代至強還是全新的至強6處理器，英特爾均通過在核心架構、緩存系統、內存技術和專用AI加速器方面的全面革新，提供了業界領先的AI計算支持。這兩款產品為數據中心和高性能計算平臺在AI推理、訓練以及多樣化工作負載下提供了強大而高效的算力保障

英特爾全方位的AI軟件生態支持

英特爾及其合作伙伴憑借多年AI積累，圍繞至強?可擴展處理器打造了完善的軟件生態：廣泛支持主流開源框架，通過插件優化及多樣化開源工具鏈，使用戶在x86平臺上能夠輕松開發、部署通用AI應用，無需手動調整，同時確保從終端到云的全程安全保護。

此外，至強?處理器內置多種AI加速指令（如AVX-512、AMX），使得任何兼容軟件均可直接調用加速功能。開發者可免費下載英特爾分發版工具、庫及開發環境，充分利用這些內置加速器應對各類AI管線需求。結合多樣化硬件優勢與開放生態，英特爾通過經濟、可擴展的方案，將AI能力無縫延伸至云端與邊緣。

其中，xFasterTransformer（xFT）是英特爾官方開源的AI推理框架，專為大語言模型在至強?平臺上深度優化。xFT不僅支持多種數據精度（FP16、BF16、INT8、INT4），還能利用多CPU節點實現分布式部署，顯著提升推理性能并降低成本。其簡單的安裝和與主流Serving框架（如vLLM、FastChat、MLServer、MindSpore Transformer、PaddlePaddle）的兼容性，幫助用戶快速加速大模型應用。在3.1節中基于天翼云EMR云主機和xFasterTransformer加速引擎實現了對與DeepSeek R1蒸餾模型的高效推理部署。

附錄2 CPU環境下部署DeepSeek-R1 671B模型實踐

環境配置

硬件配置

● CPU：Intel? Xeon? 6980P Processor, 128core 2.00 GHz

● 內存 24*64GB DDR5-6400

● 存儲 1TB NVMe SSD

軟件環境

● OS: Ubuntu 22.04.5 LTS

● Kernel: 5.15.0-131-generic

● llama.cpp: github bd6e55b

● cmake: 3.22.0

● gcc/g++: 11.4.0

● Python: 3.12.8

● git: 2.34.1

BIOS?關閉sub NUMA相關配置。

注意
版本是指本測試中服務器上安裝的版本，并?要求的最低版本。

部署步驟

1. 安裝llama.cpp

參考llama.cpp官?的安裝說明，我們的步驟如下。

# 下載llama.cpp推理框架源碼
git clone //github.com/ggerganov/llama.cpp.git 
cd llama.cpp

# 預先準備intel oneapi庫
source /opt/intel/oneapi/setvars.sh

# 基于oneapi庫對llama.cpp進行編譯
cmake -B build -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=Intel10_64lp -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx -DGGML_NATIVE=ON 
cmake --build build --config Release -j$nproc

2. 下載模型?件

我們直接使用了社區制作的DeepSeek 671B滿血模型的Q4量化版，您也可以下載DeepSeek官方BF16版本，并通過 llama.cpp 提供的腳本轉換為 GGUF 格式。

社區提供了從 1bit 到 8bit 不同版本的量化選項，具體區別可以參考社區網頁。我們選擇了使用最受歡迎的 Q4_K_M 版本。如果追求最佳效果，建議使用 Q8_0 版本。

# 下載unsloth制作的社區版量化模型(hf-mirror和modelscpoe源都可)
git clone --no-checkout //hf-mirror.com/unsloth/DeepSeek-R1-GGUF 
cd DeepSeek-R1-GGUF/
# 建議nohup執行, 預計至少需要半天時間, 同時確保磁盤容量足夠400G.
git lfs pull --include="DeepSeek-R1-Q4_K_M/*"

Q4_K_M 版本的文件大小為 404.43GB，下載過程可能會比較耗時。下載完成后，您可以在 DeepSeek-R1-Q4_K_M 目錄下找到一系列 .gguf 文件，例如 DeepSeek-R1-Q4_K_M-00001-of-00009.gguf。

3. 模型加載和運?

使用 llama-cli，指定模型文件路徑并啟用交互模式，DeepSeek R1 滿血版就可以在 CPU 上順利運行了。

build/bin/llama-cli -m /tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of- 00009.gguf -i

下面用幾個示例展現DeepSeek-R1 671B滿血版強大的的reasoning推理能力:

測試模型自我認知:

驗證推理能?的經典“草莓”問題:

“等燈等燈”的意思:

4.性能及優化

那么CPU運?滿?版R1的性能怎么樣呢?我們做了相關性能測試。對于Q4_K_M模型，使?如下命令進行:

export MODEL_PATH=/tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of-00009.gguf
numactl -C 0-127 -m 0 ./build/bin/llama-cli -m $MODEL_PATH -t 128 --temp 0.6 -s 42 -no-cnv --no-kv-offload -ctk q4_0 -c 8192 -n 128 -p "<｜User｜>以孤獨的夜行者為題寫一篇750字的散文，描繪一個人在城市中夜晚漫無目的行走的心情與所見所感，以及夜的寂靜給予的獨特感悟。<｜Assistant｜>"

這?使?numactl來指定使?單路CPU (0-127, 6980P有128核)，以及這?路CPU的內存節點（numa0），避免跨numa傳輸以獲取最佳性能。

llama.cpp是本地編譯的，編譯的時候使?Intel oneAPI可以有效提升它的性能。英特爾嘗試?了oneAPI?的Intel C++編譯器和數學加速庫MKL，結合jemalloc內存管理優化，推理速度可以達到每秒9.7~10詞元(TPS, tokens per second)。

上?的實驗是在單路CPU上進?的，我們?在兩路CPU上各?獨?啟動1個模型實例，總速度可以達到14.7TPS (7.32TPS+7.38TPS)。

再進?步，英特爾觀察到基于現有的llama.cpp軟件?案，在CPU平臺沒有實現?效的專家并?和張量并?等優化，CPU核?利?率和帶寬資源沒有充分發揮出來，6980P的128核?運?1個模型還有不少性能儲備。預計可以繼續增加實例數來獲得更好的總TPS。

另外，通常情況下，CPU的SNC (Sub-NUMA Clustering)設置可以獲得更?的帶寬，但是受限于軟件并未優化實現良好匹配，此次實驗關閉了SNC測試。

以下?式的系統配置也有助于提升性能：

● BIOS?關閉AMP prefetcher

● ?cpupower打開CPU的pstate性能模式

● 提?CPU的uncore頻率

● 關閉超線程(Hyper-Threading)

注意
為了加快試驗進度，我們限制了詞元輸出?度(-n 128)。經過驗證，增加輸出?度(例如-n 512)對于生成性能指標的影響不大。

返回DeepSeek專題導航。

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

智算服務

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

彈性云主機

彈性云主機

1 背景

1.1 大模型算力需求

1.2 CPU算力用于大模型推理的適用場景

2 天翼云EMR實例DeepSeek-R1-Distill-Qwen-7B蒸餾模型部署實踐

2.1 服務部署

2.2 模型使用

2.2.1 open-webui前端使用

2.2.2 vllm api調用

2.3 性能指標

3 基于英特爾?至強?6處理器部署滿血版DeepSeek-R1 671B實踐

3.1 性能指標

3.2 英特爾?至強?6處理器簡介

總結

附錄1 英特爾? 至強? 可擴展處理器與AI加速技術

最新英特爾? 至強? 可擴展處理器產品

英特爾全方位的AI軟件生態支持

附錄2 CPU環境下部署DeepSeek-R1 671B模型實踐

環境配置

部署步驟

1. 安裝llama.cpp

2. 下載模型?件

3. 模型加載和運?

4.性能及優化

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

活動

智算服務

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

彈性云主機

彈性云主機

1 背景

1.1 大模型算力需求

1.2 CPU算力用于大模型推理的適用場景

2 天翼云EMR實例DeepSeek-R1-Distill-Qwen-7B蒸餾模型部署實踐

2.1 服務部署

2.2 模型使用

2.2.1 open-webui前端使用

2.2.2 vllm api調用

2.3 性能指標

3 基于英特爾?至強?6處理器部署滿血版DeepSeek-R1 671B實踐

3.1 性能指標

3.2 英特爾?至強?6處理器簡介

總結

附錄1 英特爾? 至強? 可擴展處理器與AI加速技術

最新英特爾? 至強? 可擴展處理器產品

英特爾全方位的AI軟件生態支持

附錄2 CPU環境下部署DeepSeek-R1 671B模型實踐

環境配置

部署步驟

1. 安裝llama.cpp

2. 下載模型?件

3. 模型加載和運?

4.性能及優化