微信扫码
添加专属顾问
我要投稿
掌握高性能AI应用的高性价比部署方案。 核心内容: 1. DeepSeek与英特尔锐炫™显卡的结合优势 2. 4路英特尔锐炫™ A770显卡+至强®W处理器的硬件配置指南 3. 软硬件安装配置与优化步骤详解
凭借卓越性能表现与先天开源优势,DeepSeek 正迅速成为全球扩展大模型应用实践的一大“圆心”。作为英特尔在 GPU 领域的重要布局,英特尔锐炫™ 显卡既是游戏党与视频生产力工作者的新欢,也可用作计算卡,对 DeepSeek 提供加速支持,为企业用户部署相关 AI 应用提供一条全新的高价性比实现路径。具体来说,就是与英特尔® 至强® 可扩展处理器或英特尔® 至强® W处理器搭配,以多卡配置的型态来运行和加速 DeepSeek 推理任务。
本文将在 DeepSeek-R1- Distill-Qwen-32B 推理场景下,以面向企业级应用且成本最低可控制在 5-6 万元人民币的 4 路英特尔锐炫™ A770 显卡 + 至强® W处理器的解决方案为例,详细阐述搭建硬件环境、配置驱动与软件、优化参数设置等步骤,手把手教大家部署和配置这一方案。
1. 软硬件安装配置与初始化
1.1 硬件安装配置
图. 安装 4 路英特尔锐炫™ A770 显卡的 AI 工作站
- 在 BIOS 设置中,将 Re-Size BAR Support 设为 [Enabled]
1.2 软件安装配置
- 安装操作系统 Ubuntu22.04.1 LTS
(镜像文件可访问 https://old
releases.ubuntu.com/releases/22.04.1/ubuntu-22.04.1-desktop-amd64.iso 获取)。
- 进行硬件验证,你要为每块 GPU 显卡都配备足额功耗来保证其工作正常。安装完操作系统后,可通过以下命令检查英特尔锐炫™ A770 显卡是否正常加载:
~$ lspci | grep 56a018:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)36:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)54:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)cc:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)
左滑查看更多
- 在确保 APT 网络已连接,且你的账号已具有 sudo 权限的情况下,需严格按以下步骤安装驱动程序:
~$ wget -qO - https://repositories.intel.com/gpu/intel-graphics.key | sudo gpg --yes --dearmor --output /usr/share/keyrings/intel-graphics.gpg~$ echo "deb [arch=amd64,i386 signed-by=/usr/share/keyrings/intel-graphics.gpg] https://repositories.intel.com/gpu/ubuntu jammy/lts/2350 unified" | sudo tee /etc/apt/sources.list.d/intel-gpu-jammy.list]# sudo apt update
左滑查看更多
- 如果内核版本不是 6.5.0-35,则通过以下命令安装 6.5.0-35 版本:
~$ sudo apt-get install -y linux-image-6.5.0-35-generic linux-headers-6.5.0-35-generic linux-modules-6.5.0-35-generic linux-modules-extra-6.5.0-35-generic~$ sudo apt install intel-i915-dkms~$ sudo vim /etc/default/grubGRUB_DEFAULT="Advanced options for Ubuntu>Ubuntu, with Linux 6.5.0-35-generic"~$ sudo update-grub~$ sudo reboot
左滑查看更多
- 然后通过以下命令安装计算、媒体和显示运行时库:
~$ sudo apt install -y intel-opencl-icd intel-level-zero-gpu level-zero intel-media-va-driver-non-free libmfx1 libmfxgen1 libvpl2 libegl-mesa0 libegl1-mesa libegl1-mesa-dev libgbm1 libgl1-mesa-dev libgl1-mesa-dri libglapi-mesa libgles2-mesa-dev libglx-mesa0 libigdgmm12 libxatracker2 mesa-va-drivers mesa-vdpau-drivers mesa-vulkan-drivers va-driver-all vainfo hwinfo clinfo
左滑查看更多
- 通过以下命令将当前用户添加到 render 组:
~$ sudo gpasswd -a $(USER) render~$ sudo newgrp render
左滑查看更多
- 驱动程序安装完成后,建议使用以下命令进行验证:
~$ clinfo | grep "Driver Version"Driver Version 23.43.27642.67
左滑查看更多
1.3 在英特尔® 至强® W 平台上设置 GPU 的 HDMI 显示
- 首先禁用 ast 卡:
~$ sudo vim /etc/modprobe.d/blacklist.conf
- 在文件底部添加“blacklist ast”:
~$ sudo update-initramfs -u
左滑查看更多
- 然后将窗口系统配置为 wayland 模式:
~$ sudo vim /etc/gdm3/custom/conf
左滑查看更多
- 将 WaylandEnable 设置为 true:
- 完成后更新初始 RAM 文件系统(initramfs)并重启系统,然后将 HDMI 线插入第一块英特尔锐炫™ A770 显卡即可完成显示终端设置。
]# sudo update-initramfs -u~$ sudo reboot
左滑查看更多
1.4 监控工具 xpu-smi 安装
- 可根据 xpumanager repo 安装用于监控和管理 XPU 设备状态信息的 xpu-smi 工具。下载 xpumanager 并执行以下命令:
~$ wget https://github.com/intel/xpumanager/releases/download/V1.2.27/xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb --no-check-certificate~$ sudo apt install ./xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb ~$ xpu-smi discovery
左滑查看更多
- 结果显示如下:
2. 大模型服务与聊天机器人演示
2.1 容器(Docker)安装及服务设置
- 用户可通过 Docker,在英特尔锐炫™ A770 显卡上使用 IPEX-LLM 开展 vLLM 服务。
Docker 的安装可参考:
https://docs.docker.com/engine/install/ubuntu/
- 通过以下命令,设置 CPU 主频至最大睿频,并将显卡锁频至 2.4GHz:
~$ apt-get install linux-tools-6.5.0-35-generic linux-cloud-tools-6.5.0-35-generic# Query max turbo frequency, like W3445, Max Turbo Frequency is 4.8GHz:~$ sudo cpupower frequency-set -d 4.8GHz~$ sudo xpu-smi config -d 0 -t 0 --frequencyrange 2400,2400~$ sudo xpu-smi config -d 1 -t 0 --frequencyrange 2400,2400~$ sudo xpu-smi config -d 2 -t 0 --frequencyrange 2400,2400~$ sudo xpu-smi config -d 3 -t 0 --frequencyrange 2400,2400
左滑查看更多
2.2 安装并启动 vLLM 服务
- 下载并安装以下 vllm 版本:
~$ docker pull intelanalytics/ipex-llm-serving-xpu:2.2.0-b11
左滑查看更多
- 从 https://hf-mirror.com 下载 LLM 模型到本地文件夹中(例如:/home/worker/LLM)。
- 从 https://hf-mirror.com/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d 下载蒸馏版模型。
- 将以下脚本放入 /home/intel/Demo-4xArc 中的 bachkend-ipex-docker.sh 文件(以下操作都以 DeepSeek-R1-Distill-Qwen-32B 版为例):
#!/bin/bash
export DOCKER_IMAGE=intelanalytics/ipex-llm-serving-xpu:2.2.0-b11
export CONTAINER_NAME=ipex-llm-b11
docker rm -f $CONTAINER_NAME
sudo docker run – itd \
--privileged \
--net=host \
--device=/dev/dri \
--name=$CONTAINER_NAME \
-v /home/intel/LLM:/llm/models/ \
-v /home/intel/Demo-4xArc:/llm/workspace \
--shm-size="32g" \
$DOCKER_IMAGE
左滑查看更多
- 将以下脚本放入 vllm-deepseek-r1-distill-qwen-32b-openaikey.sh 文件:
#!/bin/bash
model="/llm/models/Deepseek-R1-Distill-Qwen-32B"
served_model_name="DeepSeek-R1-Distill-Qwen-32B"
export SYCL_CACHE_PERSISTENT=1
export CCL_WORKER_COUNT=2
export FI_PROVIDER=shm
export CCL_ATL_TRANSPORT=ofi
export CCL_ZE_IPC_EXCHANGE=sockets
export CCL_ATL_SHM=1
export USE_XETLA=OFF
export SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=2
export TORCH_LLM_ALLREDUCE=0
export CCL_SAME_STREAM=1
export CCL_BLOCKING_WAIT=0
source /opt/intel/1ccl-wks/setvars.sh
python -m ipex_llm.vllm.xpu.entrypoints.openai.api_server \
--served-model-name $served_model_name \
--port 8001\
--model $model \
--trust-remote-code \
--gpu-memory-utilization 0.9 \
--device xpu \
--dtype float16 \
--enforce-eager \
--load-in-low-bit fp8 \
--max-model-len 9000 \
--max-num-batched-tokens 9000 \
--max-num-segs 32 \
--api-key intel123 \
--tensor-parallel-size 4 \
--disable-async-output-proc \
--distributed-executor-backend ray
左滑查看更多
- 然后启动容器和 vLLM 服务:
~$ sudo bash backend-ipex-docker.sh~$ docker exec -it ipex-llm-b11 bash~$ cd workspace & bash vllm-deepseek-r1-distill-qwen-32b-openaikey.sh
左滑查看更多
- 如下日志表明 DeepSeek 推理服务已启动成功:
2.3 使用 Chatbox AI 进行性能测试
- 开发者可以在本地使用 Chatbox AI 进行 LLM 推理性能测试。如 DeepSeek 推理服务 IP 为 192.168.10.110,在 Windows PowerShell 中执行以下命令并输入密码,将远程服务端口映射到本地:
User> ssh -L 8001:localhost:8001 worker@192.168.10.110
左滑查看更多
- 打开 Chatbox AI 的 Url( https://web.chatboxai.app/ )
- 选择 “User My Own API Key / Local Model”,点击 “Add Custom Provider”,并根据下图所示进行配置,手动输入 DeepSeek 整流的模型名称等信息:
- 由此,使用者可以在 Chatbox AI 中向大语言模型提问,测试其推理性能:
左滑查看更多
- vllm 服务日志能够显示当前的性能状况,如图中所示,基于多路英特尔锐炫™ A770 显卡的推理服务一直有着 30+ tokens/s 的性能表现。
创新不止步:全新 24GB 锐炫™ 显卡与满血版 DeepSeek R1 方案正在路上
本部署指南虽然是围绕 4 路英特尔锐炫™ A770 显卡的方案展开,且以 DeepSeek-R1-Distill-Qwen-32B 版为例,但我们的实践探索并未局限于此。
一方面,该解决方案可对 DeepSeek 各个蒸馏版提供同样灵活的支持。使用者可通过调整输入模型名称,以及设定并行使用的显卡数量来进行调整(使用 --tensor-parallel-size 参数来控制)。
另一方面,多路英特尔锐炫™ 显卡 + 英特尔® 至强® 可扩展处理器 /至强® W 处理器方案的关键目标,还是锁定在 DeepSeek- R1-671B 这一性能巅峰版本上,其配置与优化方法很快就会与大家见面。预计其技术路径会同时覆盖基于 KTransformer,能更充分发挥至强® 处理器内置 AI 加速技术 AMX 潜能的方案,以及 GPU 配置密度更高的单机 16 路英特尔锐炫™ 显卡的方案。
另一个值得期待的进展,就是专为生产力应用打造的新一代英特尔锐炫™ 显卡 B580 24G 显存版本也正向我们走来,其 4 张卡即可提供 96GB 的显存容量,意味着用户可在单机中更轻松地部署更大参数量的 DeepSeek 服务(例如 DeepSeek- R1-671B 版本),进而能在实战中以较低的成本和较为便捷的部署方式,开启不缩水的 DeepSeek 服务。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-17
Google的AI防护方案-AI Protection
2025-04-17
复刻小智AI第2步,2张核心流程图学习一下它的WebSocket协议
2025-04-17
转型 AI 公司后,理想交出首份成绩单
2025-04-17
Google A2A:开启Agent相互协作的新时代
2025-04-16
轰飞RK3588?开发板中的小钢炮 |搭建你的私有机器人—用AIBOX-1684X高算力AI计算盒Llama3|DeepSeek
2025-04-16
全域智能操控:揭秘 AI 驱动下的浏览器、桌面与移动自动化先锋
2025-04-16
卧槽!!这才是MCP!两分钟做一个支付功能的智能体
2025-04-16
Apifox 全面支持 LLMs.txt:让 AI 更好地理解你的 API 文档
2024-03-30
2024-05-09
2024-07-07
2024-07-23
2025-02-12
2024-07-01
2024-06-24
2024-06-23
2024-10-20
2024-06-08
2025-04-13
2025-04-11
2025-04-03
2025-03-30
2025-03-28
2025-03-26
2025-03-13
2025-03-12