在當今數字化浪潮中,人工智能與高性能計算的融合正驅動著各行業的創新變革。隨著數據量的爆炸式增長以及復雜算法的不斷涌現,對計算資源的高效利用和模型部署的靈活性、高性能提出了嚴苛要求。昇騰 910B物理機,作為前沿計算領域的佼佼者,憑借其卓越的算力與強大的并行處理能力,為各類復雜任務提供了堅實的硬件支撐。而嵌入式模型的部署,能夠將先進的人工智能技術深度融入各類設備與系統,實現智能化的精準賦能。
本指南將詳細闡述如何依托昇騰 910B物理機及其鏡像,順利完成嵌入式模型部署工作。從前期依托 Galaxy 鏡像構建 Slurm 集群并部署 DS 服務的環境搭建,到精準下載 BGE-M3 等關鍵模型并巧妙配置啟動腳本,再到運用 TEI-ATB 容器鏡像靈活管理服務,每一個環節都緊密相扣。旨在幫助技術人員、科研工作者以及相關領域從業者,全面掌握基于昇騰 910B 的嵌入式模型部署技巧,充分釋放硬件潛能,推動人工智能應用在各場景中的高效落地,助力行業邁向智能化發展的新高度。
一、環境準備
1.1 前置條件
- 管理節點:CTyunOS-23.01.2@GalaxyMaster-NPU24.1.rc2.1鏡像
- 計算節點:CTyunOS-23.01.2@GalaxyCompute-NPU24.1.rc2.1鏡像
- 已通過 Galaxy 鏡像完成 Slurm 集群的部署,并且 DS 服務也已部署完畢
注意DeepSeek 服務內存總量請勿超過 90%。可在node.sh文件中設置export NPU_MEMORY_FRACTION=0.9來進行配置。
1.2 下載模型
將 BGE-M3 模型和 BGE-Rerank-V2-M3 模型下載至/mnt/nvme1n1/model文件夾下。以下是模型文件夾的文件列表示例:
$ ls -l /mnt/nvme1n1/model/bge-m3/
total 2241804
drwxr-xr-x 2 root root 4096 Mar 2 14:35 1_Pooling
-rw-r--r-- 1 root root 2100674 Mar 2 14:35 colbert_linear.pt
-rw-r--r-- 1 root root 687 Mar 2 14:35 config.json
-rw-r--r-- 1 root root 123 Mar 2 14:35 config_sentence_transformers.json
drwxr-xr-x 2 root root 4096 Mar 2 14:35 imgs
-rw-r--r-- 1 root root 126894 Mar 2 14:35 long.jpg
-rw-r--r-- 1 root root 349 Mar 2 14:35 modules.json
drwxr-xr-x 2 root root 4096 Mar 2 14:35 onnx
-rw-r--r-- 1 root root 2271145830 Mar 2 14:35 pytorch_model.bin
-rw-r--r-- 1 root root 15822 Mar 2 14:35 README.md
-rw-r--r-- 1 root root 54 Mar 2 14:35 sentence_bert_config.json
-rw-r--r-- 1 root root 5069051 Mar 2 14:35 sentencepiece.bpe.model
-rw-r--r-- 1 root root 3516 Mar 2 14:35 sparse_linear.pt
-rw-r--r-- 1 root root 964 Mar 2 14:35 special_tokens_map.json
-rw-r--r-- 1 root root 444 Mar 2 14:35 tokenizer_config.json
-rw-r--r-- 1 root root 17098108 Mar 2 14:35 tokenizer.json
$ ll /mnt/nvme1n1/model/bge-reranker-v2-m3/
total 2239536
drwxr-xr-x 2 root root 4096 Mar 26 13:03 assets
-rw-r--r-- 1 root root 795 Mar 26 13:02 config.json
-rw-r--r-- 1 root root 2271071852 Mar 26 13:03 model.safetensors
-rw-r--r-- 1 root root 17229 Mar 26 13:03 README.md
-rw-r--r-- 1 root root 5069051 Mar 26 13:03 sentencepiece.bpe.model
-rw-r--r-- 1 root root 964 Mar 26 13:03 special_tokens_map.json
-rw-r--r-- 1 root root 1173 Mar 26 13:03 tokenizer_config.json
-rw-r--r-- 1 root root 17098273 Mar 26 13:03 tokenizer.json
注意可通過 Hugging Face、ModelScope 進行下載。
1.3 啟動腳本
下載腳本并解壓:
cd /home
wget //jiangsu-10.zos.daliqc.cn/galaxy/deployment/embedding-hw-v20250326.tar
tar xvf embedding-hw-v20250326.tar
cd /home/embedding
解壓后的文件列表如下:
$ ls -l
total 8
drwxr-x--- 4 root root 121 Mar 26 14:47 kernel_meta
drwxr-xr-x 2 root root 172 Mar 26 14:46 log
-rw-r--r-- 1 root root 985 Mar 26 14:45 run_bgem3.sh
-rw-r--r-- 1 root root 979 Mar 26 14:46 run_rerank.sh
lrwxrwxrwx 1 root root 51 Mar 26 14:45 tei-atb-910B-cthpc-fix-1.sif -> /mnt/nvme1n1/apptainer/tei-atb-910B-cthpc-fix-1.sif
1.4 TEI-ATB容器鏡像
下載容器:
$ mkdir -p /mnt/nvme1n1/apptainer/
$ cd /mnt/nvme1n1/apptainer/
$ wget //jiangsu-10.zos.daliqc.cn/galaxy/tei/tei-atb-910B-cthpc-fix-1.sif
--2025-03-26 13:49:08-- //jiangsu-10.zos.daliqc.cn/galaxy/tei/tei-atb-910B-cthpc-fix-1.sif
Resolving jiangsu-10.zos.daliqc.cn (jiangsu-10.zos.daliqc.cn)... 117.88.33.247, 218.91.113.207, 117.88.33.209
Connecting to jiangsu-10.zos.daliqc.cn (jiangsu-10.zos.daliqc.cn)|117.88.33.247|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 4960907264 (4.6G) [binary/octet-stream]
Saving to: ‘tei-atb-910B-cthpc-fix-1.sif’
tei-atb-910B-cthpc-fix-1.sif 100%[========================================================================================>] 4.62G 14.1MB/s in 6m 30s
2025-03-26 13:55:39 (12.1 MB/s) - ‘tei-atb-910B-cthpc-fix-1.sif’ saved [4960907264/4960907264]
若下載容器的路徑地址不同,需重新創建軟鏈接:
cd /home/embedding
rm tei-atb-910B-cthpc-fix-1.sif
ln -s /mnt/nvme1n1/apptainer/tei-atb-910B-cthpc-fix-1.sif .
1.5 配置腳本
使用run_bgem3.sh部署 BGE-M3 模型,使用run_rerank.sh部署 BGE-Rerank-V2-M3 模型。
修改run_bgem3.sh與run_rerank.sh中的參數,以run_bgem3.sh為例:
export TEI_NPU_DEVICE=0 #選擇NPU卡號(默認為0號NPU上啟動服務)
export APP_IMAGE=tei-atb-910B-cthpc-fix-1.sif
export MODEL_DIR=/mnt/nvme1n1/model/bge-m3
export LOCAL_PORT=40003
注意APP_IMAGE為/home/embedding下的軟鏈接名,MODEL_DIR為模型實際路徑,LOCAL_PORT為服務端口。
二、服務管理
2.1 嵌入式模型服務啟動
sh run_bgem3.sh
INFO: instance started successfully
sh run_rerank.sh
INFO: instance started successfully
注意服務地址為//[本地IP]:40003/v1 和//[本地IP]:40004/v1。
2.2 查詢服務狀態
$ apptainer instance list
INSTANCE NAME PID IP IMAGE
app-tei-bgem3 441013 /home/embedding/tei-atb-910B-cthpc-fix-1.sif
app-tei-rerank 441406 /home/embedding/tei-atb-910B-cthpc-fix-1.sif
2.3 嵌入式模型服務停止
apptainer instance stop app-tei-bgem3
apptainer instance stop app-tei-rerank