NVIDIA GPU物理機使用Galaxy鏡像部署DeepSeek指南(單機版)
更新時間 2025-04-16 16:14:00
最近更新時間: 2025-04-16 16:14:00
分享文章
本指南詳細介紹了基于物理機Galaxy鏡像在NVIDIA-GPU的單機部署流程,區別于傳統DeepSeek部署方式依賴于手動編寫配置腳本并拉起服務,本指南方案優化了部署架構,取消模型軟鏈接設計,并采用Apptainer Instance代替tmux實現更穩健的進程管理。
一、環境準備
1.1 鏡像要求
選擇以下兩種基礎鏡像之一進行部署:
- Galaxy-Master 鏡像(管理節點專用):CentOS-7.9@GalaxyMaster-GPU
- Galaxy-Compute 鏡像(計算節點專用):CentOS-7.9@GalaxyCompute-GPU
1.2 存儲配置
1.2.1 磁盤掛載
執行以下操作完成NVMe磁盤掛載:
# 查看磁盤分區狀態
lsblk
# 典型輸出示例
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
nvme0n1 259:1 0 2.9T 0 disk
nvme1n1 259:0 0 2.9T 0 disk
# 實施掛載操作(需配置/etc/fstab實現持久化)
mkdir -p /work /data
mount /dev/nvme0n1 /work
mount /dev/nvme1n1 /data
存儲規劃:
掛載點 用途說明 容量規格
/work 應用軟件及腳本存儲 2.9TB
/data 模型文件存儲 2.9TB
1.3 軟件部署
1.3.1 獲取部署包
cd /work
wget //jiangsu-10.zos.daliqc.cn/galaxy/deployment/deepseek-nv-1node-v20250323.tar
tar xvf deepseek-nv-1node-v20250323.tar
1.3.2 更新vLLM組件
cd /work/vllm
rm -f vllm-openai_v0.8.1.sif # 清理演示文件
wget //jiangsu-10.zos.daliqc.cn/galaxy/apptainer/vllm/vllm-openai_v0.8.3.sif
1.4 模型準備
通過以下渠道獲取模型文件:
ModelScope:
模型存放路徑:/data/hfcache/DeepSeek-R1-Distill-Llama-70B
目錄結構示例:
├── config.json
├── model-00001-of-000017.safetensors
├── ...
└── tokenizer_config.json
二、服務管理
2.1 服務配置
編輯部署腳本/work/vllm/run_deepseek.sh,配置關鍵參數:
export MODEL_DIR=/data/hfcache/DeepSeek-R1-Distill-Llama-70B
export MODEL_NAME=DeepSeek-R1-Distill-Llama-70B
安全認證配置:
export VLLM_API_KEY="your_secure_password" # 需替換為高強度密鑰
2.2 DeepSeek服務啟動
啟動服務:sh /work/vllm/run_deepseek.sh
成功提示: INFO: instance started successfully
2.3 查看DeepSeek狀態
狀態查看命令:apptainer instance list
輸出示例:
INSTANCE NAME PID IP IMAGE
app-vllm 85419 /work/vllm/vllm-openai_v0.8.3.sif
2.4 DeepSeek服務停止
停止服務命令:apptainer instance stop app-vllm
成功提示: INFO: Stopping app-vllm instance of /home/deploy/vllm/vllm-openai_v0.8.3.sif (PID=85419)