成本打到6万以下手把手教你用4路锐炫™ 显卡+至强® W跑DeepSeek

量子位的朋友们
2025-02-21
19:32:40

来源：量子位

凭借卓越性能表现与先天开源优势，DeepSeek正迅速成为全球扩展大模型应用实践的一大“圆心”。作为英特尔在GPU领域的重要布局，英特尔锐炫™显卡既是游戏党与视频生产力工作者的新欢，也可用作计算卡，对DeepSeek提供加速支持，为企业用户部署相关AI应用提供一条全新的高价性比实现路径。具体来说，就是与英特尔® 至强® 可扩展处理器或英特尔® 至强® W处理器搭配，以多卡配置的型态来运行和加速DeepSeek推理任务。

本文将在DeepSeek-R1- Distill-Qwen-32B推理场景下，以面向企业级应用且成本最低可控制在5-6万元人民币的4 路英特尔锐炫™ A770显卡 + 至强® W处理器的解决方案为例，详细阐述搭建硬件环境、配置驱动与软件、优化参数设置等步骤，手把手教大家部署和配置这一方案。

1. 软硬件安装配置与初始化

1.1 硬件安装配置

△图. 安装4路英特尔锐炫™ A770显卡的AI工作站

－在BIOS设置中，将Re-Size BAR Support设为[Enabled]

1.2 软件安装配置

− 安装操作系统Ubuntu22.04.1 LTS（镜像文件可访问https://old-releases.ubuntu.com/releases/22.04.1/ubuntu-22.04.1-desktop-amd64.iso获取）。

－进行硬件验证，你要为每块 GPU 显卡都配备足额功耗来保证其工作正常。安装完操作系统后，可通过以下命令检查英特尔锐炫™ A770显卡是否正常加载：

~$ lspci | grep 56a0

18:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)

36:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)

54:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)

cc:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)

− 在确保 APT 网络已连接，且你的账号已具有 sudo 权限的情况下，需严格按以下步骤安装驱动程序：

~$ wget -qO – https://repositories.intel.com/gpu/intel-graphics.key | sudo gpg –yes –dearmor –output /usr/share/keyrings/intel-graphics.gpg

~$ echo “deb [arch=amd64,i386 signed-by=/usr/share/keyrings/intel-graphics.gpg] https://repositories.intel.com/gpu/ubuntu jammy/lts/2350 unified” | sudo tee/etc/apt/sources.list.d/intel-gpu-jammy.list

]# sudo apt update

－如果内核版本不是6.5.0-35，则通过以下命令安装6.5.0-35版本：

~$ sudo apt-get install -y linux-image-6.5.0-35-generic linux-headers-6.5.0-35-generic linux-modules-6.5.0-35-generic linux-modules-extra-6.5.0-35-generic

~$ sudo apt install intel-i915-dkms

~$ sudo vim /etc/default/grub

GRUB_DEFAULT="Advanced options for Ubuntu>Ubuntu, with Linux 6.5.0-35-generic"

~$ sudo update-grub

~$ sudo reboot

－然后通过以下命令安装计算、媒体和显示运行时库：

~$ sudo apt install -y intel-opencl-icd intel-level-zero-gpu level-zero intel-media-va-driver-non-free libmfx1 libmfxgen1 libvpl2 libegl-mesa0 libegl1-mesa libegl1-mesa-dev libgbm1 libgl1-mesa-dev libgl1-mesa-dri libglapi-mesa libgles2-mesa-dev libglx-mesa0 libigdgmm12 libxatracker2 mesa-va-drivers mesa-vdpau-drivers mesa-vulkan-drivers va-driver-all vainfo hwinfo clinfo

－通过以下命令将当前用户添加到 render 组：

~$ sudo gpasswd -a $(USER) render

~$ sudo newgrp render

− 驱动程序安装完成后，建议使用以下命令进行验证：

~$ clinfo | grep “Driver Version”

Driver Version 23.43.27642.67

1.3 在英特尔® 至强® W平台上设置GPU的HDMI显示

− 首先禁用 ast 卡：

~$ sudo vim /etc/modprobe.d/blacklist.conf

− 在文件底部添加“blacklist ast”：

~$ sudo update-initramfs -u

− 然后将窗口系统配置为wayland模式：

~$ sudo vim /etc/gdm3/custom/conf

－将WaylandEnable设置为true：

− 完成后更新初始RAM文件系统（initramfs）并重启系统，然后将HDMI线插入第一块英特尔锐炫™ A770显卡即可完成显示终端设置。

]# sudo update-initramfs -u

~$ sudo reboot

1.4 监控工具xpu-smi安装

− 可根据xpumanager repo安装用于监控和管理 XPU设备状态信息的xpu-smi 工具。下载xpumanager并执行以下命令：

~$ wget https://github.com/intel/xpumanager/releases/download/V1.2.27/xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb –no-check-certificate

~$ sudo apt install ./xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb

~$ xpu-smi discovery

－结果显示如下：

2. 大模型服务与聊天机器人演示

2.1容器（Docker）安装及服务设置

− 用户可通过 Docker，在英特尔锐炫™ A770显卡上使用 IPEX-LLM开展 vLLM 服务。Docker的安装可参考：https://docs.docker.com/engine/install/ubuntu/

− 通过以下命令，设置CPU主频至最大睿频，并将显卡锁频至2.4GHz：

~$ apt-get install linux-tools-6.5.0-35-generic linux-cloud-tools-6.5.0-35-generic

# Query max turbo frequency, like W3445, Max Turbo Frequency is 4.8GHz:

~$ sudo cpupower frequency-set -d 4.8GHz

~$ sudo xpu-smi config -d 0 -t 0 –frequencyrange 2400,2400

~$ sudo xpu-smi config -d 1 -t 0 –frequencyrange 2400,2400

~$ sudo xpu-smi config -d 2 -t 0 –frequencyrange 2400,2400

~$ sudo xpu-smi config -d 3 -t 0 –frequencyrange 2400,2400

2.2 安装并启动vLLM服务

− 下载并安装以下vllm版本：

~$ docker pull intelanalytics/ipex-llm-serving-xpu:2.2.0-b11

－从https://hf-mirror.com下载LLM模型到本地文件夹中（例如：/home/worker/LLM）。

－从https://hf-mirror.com/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d下载蒸馏版模型。

− 将以下脚本放入/home/intel/Demo-4xArc中的 bachkend-ipex-docker.sh文件（以下操作都以DeepSeek-R1-Distill-Qwen-32B版为例）：

− 将以下脚本放入vllm-deepseek-r1-distill-qwen-32b-openaikey.sh文件:

− 然后启动容器和vLLM 服务：

~$ sudo bash backend-ipex-docker.sh

~$ docker exec -it ipex-llm-b11 bash

~$ cd workspace & bash vllm-deepseek-r1-distill-qwen-32b-openaikey.sh

− 如下日志表明DeepSeek推理服务已启动成功：

2.3 使用Ollama webui进行性能测试

− 开发者可以在本地使用Ollama webui进行LLM推理性能测试。如DeepSeek推理服务IP为192.168.10.110，在Windows PowerShell中执行以下命令并输入密码，将远程服务端口映射到本地：

User> ssh -L 8001:localhost:8001 worker@192.168.10.110

– 打开Ollama webui的Url（https://web.chatboxai.app/）

− 选择 “User My Own API Key / Local Model”，点击 “Add Custom Provider”，并根据下图所示进行配置，手动输入DeepSeek整流的模型名称等信息：

−

− 由此，使用者可以在Ollama webui中向大语言模型提问，测试其推理性能：

－ vllm服务日志能够显示当前的性能状况，如图中所示，基于多路英特尔锐炫™ A770显卡的推理服务一直有着30+ tokens/s的性能表现。

创新不止步：全新24GB锐炫™ 显卡与满血版DeepSeek R1方案正在路上

本部署指南虽然是围绕4路英特尔锐炫™ A770显卡的方案展开，且以DeepSeek-R1-Distill-Qwen-32B版为例，但我们的实践探索并未局限于此。

一方面，该解决方案可对DeepSeek各个蒸馏版提供同样灵活的支持。使用者可通过调整输入模型名称，以及设定并行使用的显卡数量来进行调整（使用–tensor-parallel-size参数来控制）。

另一方面，多路英特尔锐炫™显卡 + 英特尔® 至强® 可扩展处理器 /至强® W处理器方案的关键目标，还是锁定在DeepSeek- R1-671B这一性能巅峰版本上，其配置与优化方法很快就会与大家见面。预计其技术路径会同时覆盖基于KTransformer，能更充分发挥至强® 处理器内置AI加速技术AMX潜能的方案，以及GPU配置密度更高的单机16路英特尔锐炫™显卡的方案。

另一个值得期待的进展，就是专为生产力应用打造的新一代英特尔锐炫™ 显卡 B580 24G显存版本也正向我们走来，其4张卡即可提供96GB的显存容量，意味着用户可在单机中更轻松地部署更大参数量的DeepSeek服务（例如DeepSeek- R1-671B版本），进而能在实战中以较低的成本和较为便捷的部署方式，开启不缩水的DeepSeek服务。

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

成本打到6万以下，手把手教你用4路锐炫™显卡+至强®W跑DeepSeek

成本打到6万以下手把手教你用4路锐炫™ 显卡+至强® W跑DeepSeek

1. 软硬件安装配置与初始化

1.1 硬件安装配置

1.2 软件安装配置

1.3 在英特尔® 至强® W平台上设置GPU的HDMI显示

1.4 监控工具xpu-smi安装

2. 大模型服务与聊天机器人演示

2.1容器（Docker）安装及服务设置

2.2 安装并启动vLLM服务

2.3 使用Ollama webui进行性能测试

创新不止步：全新24GB锐炫™ 显卡与满血版DeepSeek R1方案正在路上

n8n实战：Webhook、条件判断与API集成详解

谷歌太壕了！编程Agent大招至简：开源且免费，百万上下文、多模态、MCP全支持

国产GPU历史性时刻！摩尔线程、沐曦同日获IPO受理

一张小卡片敢卖999？原来是智能体AI硬件

OpenAI华人AI大牛集体跳槽Meta！清华北大浙大中科大校友各一位，多模态后训练、感知团队负责人全走了

谷歌太壕了！编程Agent大招至简：开源且免费，百万上下文、多模态、MCP全支持

MIT终身教授何恺明，入职谷歌了

AI“读书”合法了：美法院最新裁定，无需作者同意，已购书籍可用于训练AI

一张小卡片敢卖999？原来是智能体AI硬件

国产大模型高考出分了：裸分683，选清华还是北大？

成本打到6万以下，手把手教你用4路锐炫™显卡+至强®W跑DeepSeek

成本打到6万以下 手把手教你用4路锐炫™ 显卡+至强® W跑DeepSeek

1. 软硬件安装配置与初始化

1.1 硬件安装配置

1.2 软件安装配置

1.3 在英特尔® 至强® W平台上设置GPU的HDMI显示

1.4 监控工具xpu-smi安装

2. 大模型服务与聊天机器人演示

2.1容器（Docker）安装及服务设置

2.2 安装并启动vLLM服务

2.3 使用Ollama webui进行性能测试

创新不止步：全新24GB锐炫™ 显卡与满血版DeepSeek R1方案正在路上

成本打到6万以下手把手教你用4路锐炫™ 显卡+至强® W跑DeepSeek