量子位 02月21日
成本打到6万以下,手把手教你用4路锐炫™显卡+至强®W跑DeepSeek
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了一种低成本的DeepSeek大模型部署方案,通过4路英特尔锐炫™ A770显卡与至强® W处理器搭配,将成本控制在5-6万元人民币。文章详细阐述了从硬件环境搭建、驱动与软件配置到参数优化的全过程,手把手教你部署和配置这一方案,包括Ubuntu系统的安装、显卡驱动的安装与验证、GPU的HDMI显示设置,以及监控工具xpu-smi的安装。此外,还介绍了如何使用Docker部署vLLM服务,并使用Ollama webui进行性能测试,展示了该方案在DeepSeek-R1-Distill-Qwen-32B推理场景下的性能表现,为企业用户提供了一条高性价比的AI应用部署路径。

🛠️ 硬件配置:采用4路英特尔锐炫™ A770显卡与英特尔® 至强® W处理器搭配,通过BIOS设置启用Re-Size BAR Support,确保硬件性能得到充分发挥。

💾 软件安装:详细介绍了Ubuntu 22.04.1 LTS操作系统的安装步骤,以及英特尔显卡驱动的安装过程,包括添加软件源、安装指定内核版本、安装计算/媒体/显示运行时库等,并提供了驱动验证方法。

🚀 vLLM服务部署:通过Docker安装IPEX-LLM,并从hf-mirror.com下载DeepSeek-R1-Distill-Qwen-32B模型,配置并启动vLLM服务,实现大模型的推理。

📊 性能测试:使用Ollama webui进行LLM推理性能测试,通过将远程服务端口映射到本地,可以在web界面中向大语言模型提问,并实时监控vllm服务的性能表现,如tokens/s等指标。

💡 未来展望:英特尔正致力于推出全新24GB显存的锐炫™ 显卡B580,以及单机16路英特尔锐炫™显卡的方案,目标是支持DeepSeek-R1-671B等更大参数量的模型,以更低的成本和更便捷的部署方式开启不缩水的DeepSeek服务。

成本打到6万以下手把手教你用4路锐炫™显卡+至强®W跑DeepSeek 量子位的朋友们 2025-02-21 19:32:40 来源:量子位 凭借卓越性能表现与先天开源优势,DeepSeek正迅速成为全球扩展大模型应用实践的一大“圆心”。作为英特尔在GPU领域的重要布局,英特尔锐炫™显卡既是游戏党与视频生产力工作者的新欢,也可用作计算卡,对DeepSeek提供加速支持,为企业用户部署相关AI应用提供一条全新的高价性比实现路径。具体来说,就是与英特尔® 至强® 可扩展处理器或英特尔® 至强® W处理器搭配,以多卡配置的型态来运行和加速DeepSeek推理任务。本文将在DeepSeek-R1- Distill-Qwen-32B推理场景下,以面向企业级应用且成本最低可控制在5-6万元人民币的4 路英特尔锐炫™ A770显卡 + 至强® W处理器的解决方案为例,详细阐述搭建硬件环境、配置驱动与软件、优化参数设置等步骤,手把手教大家部署和配置这一方案。1. 软硬件安装配置与初始化1.1 硬件安装配置△图. 安装4路英特尔锐炫™ A770显卡的AI工作站- 在BIOS设置中,将Re-Size BAR Support设为[Enabled]1.2 软件安装配置− 安装操作系统Ubuntu22.04.1 LTS(镜像文件可访问https://old-releases.ubuntu.com/releases/22.04.1/ubuntu-22.04.1-desktop-amd64.iso获取)。- 进行硬件验证,你要为每块 GPU 显卡都配备足额功耗来保证其工作正常。安装完操作系统后,可通过以下命令检查英特尔锐炫™ A770显卡是否正常加载:~$ lspci | grep 56a018:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)36:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)54:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)cc:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)− 在确保 APT 网络已连接,且你的账号已具有 sudo 权限的情况下,需严格按以下步骤安装驱动程序:~$ wget -qO – https://repositories.intel.com/gpu/intel-graphics.key | sudo gpg –yes –dearmor –output /usr/share/keyrings/intel-graphics.gpg~$ echo “deb [arch=amd64,i386 signed-by=/usr/share/keyrings/intel-graphics.gpg] https://repositories.intel.com/gpu/ubuntu jammy/lts/2350 unified” | sudo tee/etc/apt/sources.list.d/intel-gpu-jammy.list]# sudo apt update- 如果内核版本不是6.5.0-35,则通过以下命令安装6.5.0-35版本:~$ sudo apt-get install -y linux-image-6.5.0-35-generic linux-headers-6.5.0-35-generic linux-modules-6.5.0-35-generic linux-modules-extra-6.5.0-35-generic~$ sudo apt install intel-i915-dkms~$ sudo vim /etc/default/grubGRUB_DEFAULT="Advanced options for Ubuntu>Ubuntu, with Linux 6.5.0-35-generic"~$ sudo update-grub~$ sudo reboot- 然后通过以下命令安装计算、媒体和显示运行时库:~$ sudo apt install -y intel-opencl-icd intel-level-zero-gpu level-zero intel-media-va-driver-non-free libmfx1 libmfxgen1 libvpl2 libegl-mesa0 libegl1-mesa libegl1-mesa-dev libgbm1 libgl1-mesa-dev libgl1-mesa-dri libglapi-mesa libgles2-mesa-dev libglx-mesa0 libigdgmm12 libxatracker2 mesa-va-drivers mesa-vdpau-drivers mesa-vulkan-drivers va-driver-all vainfo hwinfo clinfo- 通过以下命令将当前用户添加到 render 组:~$ sudo gpasswd -a $(USER) render~$ sudo newgrp render− 驱动程序安装完成后,建议使用以下命令进行验证:~$ clinfo | grep “Driver Version”Driver Version                                     23.43.27642.671.3 在英特尔® 至强® W平台上设置GPU的HDMI显示− 首先禁用 ast 卡:~$ sudo vim /etc/modprobe.d/blacklist.conf− 在文件底部添加“blacklist ast”:~$ sudo update-initramfs -u− 然后将窗口系统配置为wayland模式:~$ sudo vim /etc/gdm3/custom/conf- 将WaylandEnable设置为true:− 完成后更新初始RAM文件系统(initramfs)并重启系统,然后将HDMI线插入第一块英特尔锐炫™ A770显卡即可完成显示终端设置。]# sudo update-initramfs -u~$ sudo reboot1.4 监控工具xpu-smi安装− 可根据xpumanager repo安装用于监控和管理 XPU设备状态信息的xpu-smi 工具。下载xpumanager并执行以下命令:~$ wget https://github.com/intel/xpumanager/releases/download/V1.2.27/xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb –no-check-certificate~$ sudo apt install ./xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb~$ xpu-smi discovery- 结果显示如下:2. 大模型服务与聊天机器人演示2.1容器(Docker)安装及服务设置− 用户可通过 Docker,在英特尔锐炫™ A770显卡上使用 IPEX-LLM开展 vLLM 服务。Docker的安装可参考:https://docs.docker.com/engine/install/ubuntu/− 通过以下命令,设置CPU主频至最大睿频,并将显卡锁频至2.4GHz:~$ apt-get install linux-tools-6.5.0-35-generic linux-cloud-tools-6.5.0-35-generic# Query max turbo frequency, like W3445, Max Turbo Frequency is 4.8GHz:~$ sudo cpupower frequency-set -d 4.8GHz~$ sudo xpu-smi config -d 0 -t 0 –frequencyrange 2400,2400~$ sudo xpu-smi config -d 1 -t 0 –frequencyrange 2400,2400~$ sudo xpu-smi config -d 2 -t 0 –frequencyrange 2400,2400~$ sudo xpu-smi config -d 3 -t 0 –frequencyrange 2400,24002.2 安装并启动vLLM服务− 下载并安装以下vllm版本:~$ docker pull intelanalytics/ipex-llm-serving-xpu:2.2.0-b11- 从https://hf-mirror.com下载LLM模型到本地文件夹中(例如:/home/worker/LLM)。- 从https://hf-mirror.com/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d下载蒸馏版模型。− 将以下脚本放入/home/intel/Demo-4xArc中的 bachkend-ipex-docker.sh文件(以下操作都以DeepSeek-R1-Distill-Qwen-32B版为例):− 将以下脚本放入vllm-deepseek-r1-distill-qwen-32b-openaikey.sh文件:− 然后启动容器和vLLM 服务:~$ sudo bash backend-ipex-docker.sh~$ docker exec -it ipex-llm-b11 bash~$ cd workspace & bash vllm-deepseek-r1-distill-qwen-32b-openaikey.sh− 如下日志表明DeepSeek推理服务已启动成功:2.3 使用Ollama webui进行性能测试− 开发者可以在本地使用Ollama webui进行LLM推理性能测试。如DeepSeek推理服务IP为192.168.10.110,在Windows PowerShell中执行以下命令并输入密码,将远程服务端口映射到本地:User> ssh -L 8001:localhost:8001 worker@192.168.10.110– 打开Ollama webui的Url(https://web.chatboxai.app/)− 选择 “User My Own API Key / Local Model”,点击 “Add Custom Provider”,并根据下图所示进行配置,手动输入DeepSeek整流的模型名称等信息:−− 由此,使用者可以在Ollama webui中向大语言模型提问,测试其推理性能:- vllm服务日志能够显示当前的性能状况,如图中所示,基于多路英特尔锐炫™ A770显卡的推理服务一直有着30+ tokens/s的性能表现。创新不止步:全新24GB锐炫™ 显卡与满血版DeepSeek R1方案正在路上本部署指南虽然是围绕4路英特尔锐炫™ A770显卡的方案展开,且以DeepSeek-R1-Distill-Qwen-32B版为例,但我们的实践探索并未局限于此。一方面,该解决方案可对DeepSeek各个蒸馏版提供同样灵活的支持。使用者可通过调整输入模型名称,以及设定并行使用的显卡数量来进行调整(使用–tensor-parallel-size参数来控制)。另一方面,多路英特尔锐炫™显卡 + 英特尔® 至强® 可扩展处理器 /至强® W处理器方案的关键目标,还是锁定在DeepSeek- R1-671B这一性能巅峰版本上,其配置与优化方法很快就会与大家见面。预计其技术路径会同时覆盖基于KTransformer,能更充分发挥至强® 处理器内置AI加速技术AMX潜能的方案,以及GPU配置密度更高的单机16路英特尔锐炫™显卡的方案。另一个值得期待的进展,就是专为生产力应用打造的新一代英特尔锐炫™ 显卡 B580 24G显存版本也正向我们走来,其4张卡即可提供96GB的显存容量,意味着用户可在单机中更轻松地部署更大参数量的DeepSeek服务(例如DeepSeek- R1-671B版本),进而能在实战中以较低的成本和较为便捷的部署方式,开启不缩水的DeepSeek服务。 版权所有,未经授权不得以任何形式转载及使用,违者必究。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek 锐炫显卡 至强处理器 AI推理 vLLM
相关文章