成本打到6万以下手把手教你用4路锐炫™ 显卡至强® W跑DeepSeek

显示全部楼层

凭借卓越性能表现与先天开源优势，DeepSeek 正迅速成为全球扩展大模型应用实践的一大“圆心”。作为英特尔在 GPU 领域的重要布局，英特尔锐炫™ 显卡既是游戏党与视频生产力工作者的新欢，也可用作计算卡，对 DeepSeek 提供加速支持，为企业用户部署相关 AI 应用提供一条全新的高价性比实现路径。具体来说，就是与英特尔^® 至强^® 可扩展处理器或英特尔^® 至强^® W处理器搭配，以多卡配置的型态来运行和加速 DeepSeek 推理任务。

本文将在 DeepSeek-R1- Distill-Qwen-32B 推理场景下，以面向企业级应用且成本最低可控制在 5-6 万元人民币的 4 路英特尔锐炫™ A770 显卡 + 至强^®W处理器的解决方案为例，详细阐述搭建硬件环境、配置驱动与软件、优化参数设置等步骤，手把手教大家部署和配置这一方案。

1. 软硬件安装配置与初始化

1.1 硬件安装配置

图. 安装 4 路英特尔锐炫™ A770 显卡的 AI 工作站

- 在 BIOS 设置中，将 Re-Size BAR Support 设为 [Enabled]

1.2 软件安装配置

- 安装操作系统 Ubuntu22.04.1 LTS

（镜像文件可访问https://old

releases.ubuntu.com/releases/22.04.1/ubuntu-22.04.1-desktop-amd64.iso 获取）。

- 进行硬件验证，你要为每块 GPU 显卡都配备足额功耗来保证其工作正常。安装完操作系统后，可通过以下命令检查英特尔锐炫™ A770 显卡是否正常加载：

~$lspci|grep56a018:00.0VGAcompatiblecontroller:IntelCorporationDevice56a0(rev08)36:00.0VGAcompatiblecontroller:IntelCorporationDevice56a0(rev08)54:00.0VGAcompatiblecontroller:IntelCorporationDevice56a0(rev08)cc:00.0VGAcompatiblecontroller:IntelCorporationDevice56a0(rev08)

左滑查看更多

- 在确保 APT 网络已连接，且你的账号已具有 sudo 权限的情况下，需严格按以下步骤安装驱动程序：

~$wget-qO-https://repositories.intel.com/gpu/intel-graphics.key|sudogpg--yes--dearmor--output/usr/share/keyrings/intel-graphics.gpg~$echo"deb[arch=amd64,i386signed-by=/usr/share/keyrings/intel-graphics.gpg]https://repositories.intel.com/gpu/ubuntujammy/lts/2350unified"|sudotee/etc/apt/sources.list.d/intel-gpu-jammy.list]#sudoaptupdate

左滑查看更多

- 如果内核版本不是 6.5.0-35，则通过以下命令安装 6.5.0-35 版本：

~$sudoapt-getinstall-ylinux-image-6.5.0-35-genericlinux-headers-6.5.0-35-genericlinux-modules-6.5.0-35-genericlinux-modules-extra-6.5.0-35-generic~$sudoaptinstallintel-i915-dkms~$sudovim/etc/default/grubGRUB_DEFAULT="AdvancedoptionsforUbuntu>Ubuntu,withLinux6.5.0-35-generic"~$sudoupdate-grub~$sudoreboot

左滑查看更多

- 然后通过以下命令安装计算、媒体和显示运行时库：

~$sudoaptinstall-yintel-opencl-icdintel-level-zero-gpulevel-zerointel-media-va-driver-non-freelibmfx1libmfxgen1libvpl2libegl-mesa0libegl1-mesalibegl1-mesa-devlibgbm1libgl1-mesa-devlibgl1-mesa-drilibglapi-mesalibgles2-mesa-devlibglx-mesa0libigdgmm12libxatracker2mesa-va-driversmesa-vdpau-driversmesa-vulkan-driversva-driver-allvainfohwinfoclinfo

左滑查看更多

- 通过以下命令将当前用户添加到 render 组：

~$sudogpasswd-a$(USER)render~$sudonewgrprender

左滑查看更多

- 驱动程序安装完成后，建议使用以下命令进行验证：

~$clinfo|grep"DriverVersion"DriverVersion23.43.27642.67

左滑查看更多

1.3 在英特尔^® 至强^® W 平台上设置 GPU 的 HDMI 显示

- 首先禁用 ast 卡：

~$sudovim/etc/modprobe.d/blacklist.conf

- 在文件底部添加“blacklist ast”：

~$sudoupdate-initramfs-u

左滑查看更多

- 然后将窗口系统配置为 wayland 模式：

~$sudovim/etc/gdm3/custom/conf

左滑查看更多

- 将 WaylandEnable 设置为 true：

- 完成后更新初始 RAM 文件系统（initramfs）并重启系统，然后将 HDMI 线插入第一块英特尔锐炫™ A770 显卡即可完成显示终端设置。

]#sudoupdate-initramfs-u~$sudoreboot

左滑查看更多

1.4 监控工具 xpu-smi 安装

- 可根据 xpumanager repo 安装用于监控和管理 XPU 设备状态信息的 xpu-smi 工具。下载 xpumanager 并执行以下命令：

~$wgethttps://github.com/intel/xpumanager/releases/download/V1.2.27/xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb--no-check-certificate~$sudoaptinstall./xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb~$xpu-smidiscovery

左滑查看更多

- 结果显示如下：

2. 大模型服务与聊天机器人演示

2.1 容器（Docker）安装及服务设置

- 用户可通过 Docker，在英特尔锐炫™ A770 显卡上使用 IPEX-LLM 开展 vLLM 服务。

Docker 的安装可参考：

https://docs.docker.com/engine/install/ubuntu/

- 通过以下命令，设置 CPU 主频至最大睿频，并将显卡锁频至 2.4GHz：

~$apt-getinstalllinux-tools-6.5.0-35-genericlinux-cloud-tools-6.5.0-35-generic#Querymaxturbofrequency,likeW3445,MaxTurboFrequencyis4.8GHz:~$sudocpupowerfrequency-set-d4.8GHz~$sudoxpu-smiconfig-d0-t0--frequencyrange2400,2400~$sudoxpu-smiconfig-d1-t0--frequencyrange2400,2400~$sudoxpu-smiconfig-d2-t0--frequencyrange2400,2400~$sudoxpu-smiconfig-d3-t0--frequencyrange2400,2400

左滑查看更多

2.2 安装并启动 vLLM 服务

- 下载并安装以下 vllm 版本：

~$dockerpullintelanalytics/ipex-llm-serving-xpu:2.2.0-b11

左滑查看更多

- 从https://hf-mirror.com 下载 LLM 模型到本地文件夹中（例如：/home/worker/LLM）。

- 从https://hf-mirror.com/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d 下载蒸馏版模型。

- 将以下脚本放入 /home/intel/Demo-4xArc 中的 bachkend-ipex-docker.sh 文件（以下操作都以 DeepSeek-R1-Distill-Qwen-32B 版为例）：

#!/bin/bashexport DOCKER_IMAGE=intelanalytics/ipex-llm-serving-xpu:2.2.0-b11export CONTAINER_NAME=ipex-llm-b11
docker rm -f $CONTAINER_NAMEsudo docker run – itd \--privileged \--net=host \--device=/dev/dri \--name=$CONTAINER_NAME \-v /home/intel/LLM:/llm/models/ \-v /home/intel/Demo-4xArc:/llm/workspace \--shm-size="32g" \$DOCKER_IMAGE

左滑查看更多

- 将以下脚本放入 vllm-deepseek-r1-distill-qwen-32b-openaikey.sh 文件:

#!/bin/bashmodel="/llm/models/Deepseek-R1-Distill-Qwen-32B"served_model_name="DeepSeek-R1-Distill-Qwen-32B"
export SYCL_CACHE_PERSISTENT=1export CCL_WORKER_COUNT=2export FI_PROVIDER=shmexport CCL_ATL_TRANSPORT=ofiexport CCL_ZE_IPC_EXCHANGE=socketsexport CCL_ATL_SHM=1
export USE_XETLA=OFFexport SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=2export TORCH_LLM_ALLREDUCE=0
export CCL_SAME_STREAM=1export CCL_BLOCKING_WAIT=0
source /opt/intel/1ccl-wks/setvars.sh
python -m ipex_llm.vllm.xpu.entrypoints.openai.api_server \--served-model-name $served_model_name \--port 8001\--model $model \--trust-remote-code \--gpu-memory-utilization 0.9 \--device xpu \--dtype float16 \--enforce-eager \--load-in-low-bit fp8 \--max-model-len 9000 \--max-num-batched-tokens 9000 \--max-num-segs 32 \--api-key intel123 \--tensor-parallel-size 4 \--disable-async-output-proc \--distributed-executor-backend ray

左滑查看更多

- 然后启动容器和 vLLM 服务：

~$sudobashbackend-ipex-docker.sh~$dockerexec-itipex-llm-b11bash~$cdworkspace&bashvllm-deepseek-r1-distill-qwen-32b-openaikey.sh

左滑查看更多

- 如下日志表明 DeepSeek 推理服务已启动成功：

2.3 使用 Chatbox AI 进行性能测试

- 开发者可以在本地使用 Chatbox AI 进行 LLM 推理性能测试。如 DeepSeek 推理服务 IP 为 192.168.10.110，在 Windows PowerShell 中执行以下命令并输入密码，将远程服务端口映射到本地：

User>ssh-L8001:localhost:8001worker@192.168.10.110

左滑查看更多

- 打开 Chatbox AI 的 Url（https://web.chatboxai.app/ ）

- 选择 “User My Own API Key / Local Model”，点击 “Add Custom Provider”，并根据下图所示进行配置，手动输入 DeepSeek 整流的模型名称等信息：

- 由此，使用者可以在 Chatbox AI 中向大语言模型提问，测试其推理性能：

左滑查看更多

- vllm 服务日志能够显示当前的性能状况，如图中所示，基于多路英特尔锐炫™ A770 显卡的推理服务一直有着 30+ tokens/s 的性能表现。

创新不止步：全新 24GB 锐炫™ 显卡与满血版 DeepSeek R1 方案正在路上

本部署指南虽然是围绕 4 路英特尔锐炫™ A770 显卡的方案展开，且以 DeepSeek-R1-Distill-Qwen-32B 版为例，但我们的实践探索并未局限于此。

一方面，该解决方案可对 DeepSeek 各个蒸馏版提供同样灵活的支持。使用者可通过调整输入模型名称，以及设定并行使用的显卡数量来进行调整（使用 --tensor-parallel-size 参数来控制）。

另一方面，多路英特尔锐炫™ 显卡 + 英特尔^® 至强^® 可扩展处理器 /至强^® W 处理器方案的关键目标，还是锁定在 DeepSeek- R1-671B 这一性能巅峰版本上，其配置与优化方法很快就会与大家见面。预计其技术路径会同时覆盖基于 KTransformer，能更充分发挥至强^®处理器内置 AI 加速技术 AMX 潜能的方案，以及 GPU 配置密度更高的单机 16 路英特尔锐炫™ 显卡的方案。

另一个值得期待的进展，就是专为生产力应用打造的新一代英特尔锐炫™ 显卡 B580 24G 显存版本也正向我们走来，其 4 张卡即可提供 96GB 的显存容量，意味着用户可在单机中更轻松地部署更大参数量的 DeepSeek 服务（例如 DeepSeek- R1-671B 版本），进而能在实战中以较低的成本和较为便捷的部署方式，开启不缩水的 DeepSeek 服务。

成本打到6万以下 手把手教你用4路锐炫™ 显卡 至强® W跑DeepSeek

成本打到6万以下手把手教你用4路锐炫™ 显卡至强® W跑DeepSeek