英特尔显卡+魔搭社区，一行命令快速部署本地大模型

Intel 在魔搭上线了Ollama 英特尔优化版镜像，该镜像提供基于 IPEX-LLM 的 Ollama 英特尔优化版，开发者可在英特尔GPU上直接免安装运行 Ollama，一行代码部署本地大模型。

前言

近期，Intel和魔搭合作，在魔搭社区上线了Ollama 英特尔优化版镜像，该镜像提供基于 IPEX-LLM 的 Ollama 英特尔优化版，开发者可在英特尔GPU (如搭载集成显卡的个人电脑，Arc 独立显卡等) 上直接免安装运行 Ollama。

DeepSeek-R1作为开源领域的重磅模型，以其卓越的推理能⼒在各类任务中脱颖⽽出，吸引了⼴泛关注。本文将⼿把⼿教您如何在纯CPU环境下，以低成本部署大模型。

Ollama 英特尔优化版在如下设备上进行了验证:

Intel Core Ultra processors

Intel Core 11th - 14th gen processors

Intel Arc A-Series GPU

Intel Arc B-Series GPU

Windows 使用指南

系统环境准备

检查 GPU 驱动程序版本，并根据需要进行更新：

对于 Intel Core Ultra processors (Series 2) 或者 Intel Arc B-Series GPU，推荐将GPU 驱动版本升级到最新版本

对于其他的 Intel 核显和独显，推荐使用 GPU 驱动版本 32.0.101.6078

步骤 1：下载和解压

下载链接：

https://www.modelscope.cn/models/ipexllm/ollama-ipex-llm/resolve/master/ollama-0.5.4-ipex-llm-2.2.0b20250220-win.zip

下载 Ollama 英特尔 Windows 优化版。

然后，将 zip 文件解压到一个文件夹中。

步骤 2：启动 Ollama Serve

根据如下步骤启动 Ollama serve:

打开命令提示符（cmd），并通过在命令行输入指令 "cd /d PATH\TO\EXTRACTED\FOLDER" 进入解压缩后的文件夹

在命令提示符中运行 "start-ollama.bat" 即可启动 Ollama Serve。随后会弹出一个窗口，如下所示：

步骤 3：运行 Ollama

接下来通过在相同的命令提示符（非弹出的窗口）中运行 ollama run deepseek-r1:7b（可以将当前模型替换为你需要的模型），即可在 Intel GPUs 上使用 Ollama 运行 LLMs：

Linux 使用指南

系统环境准备

检查GPU 驱动程序版本，并根据需要进行更新；推荐用户按照消费级显卡驱动安装指南来安装 GPU 驱动。

步骤 1：下载和解压

下载链接：

https://www.modelscope.cn/models/ipexllm/ollama-ipex-llm/resolve/master/ollama-0.5.4-ipex-llm-2.2.0b20250220-ubuntu.tgz

然后，开启一个终端，输入如下命令将 tgz 文件解压到一个文件夹中。

tar -xvf [Downloaded tgz file path]

步骤 2：启动 Ollama Serve

进入解压后的文件夹，执行./start-ollama.sh启动 Ollama Serve：

cd PATH/TO/EXTRACTED/FOLDER./start-ollama.sh

步骤 3：运行 Ollama

在 Intel GPUs 上使用 Ollama 运行大语言模型，如下所示：

打开另外一个终端，并输入指令 cd PATH/TO/EXTRACTED/FOLDER 进入解压后的文件夹

在终端中运行 ./ollama run deepseek-r1:7b（可以将当前模型替换为你需要的模型）

模型下载源

Ollama 英特尔优化版默认从 ModelScope 下载模型。通过在运行 Ollama 之前设置环境变量 IPEX_LLM_MODEL_SOURCE 为 modelscope 或 ollama，你可以切换模型的下载源。

使用 Ollama 英特尔优化版默认从 ModelScope 下载的模型，在执行 ollama list 时仍会显示实际的模型 ID，例如：

NAME                                                             ID              SIZE      MODIFIEDmodelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF:Q4_K_M    f482d5af6aec    4.7 GB    About a minute ago

除了 ollama run 和 ollama pull，其他操作中模型应通过其实际 ID 进行识别，例如：ollama rm modelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF:Q4_K_M

在 Ollama 中增加上下文长度

默认情况下，Ollama 使用 2048 个 token 的上下文窗口运行模型。也就是说，模型最多能 “记住” 2048 个 token 的上下文。

要增加上下文长度，可以在启动 Ollama serve 之前设置环境变量 IPEX_LLM_NUM_CTX，步骤如下（如果 Ollama serve 已经在运行，请确保先将其停止）：

对于 Windows 用户：

打开命令提示符（cmd），并通过 cd /d PATH\TO\EXTRACTED\FOLDER 命令进入解压后的文件夹

在命令提示符中将 IPEX_LLM_NUM_CTX 设置为所需长度，例如：set IPEX_LLM_NUM_CTX=16384

通过运行 start-ollama.bat 启动 Ollama serve

对于 Linux 用户：

在终端中输入指令 cd PATH/TO/EXTRACTED/FOLDER 进入解压后的文件夹

在终端中将 IPEX_LLM_NUM_CTX 设置为所需长度，例如：export IPEX_LLM_NUM_CTX=16384

通过运行 ./start-ollama.sh 启动 Ollama serve

TIP

IPEX_LLM_NUM_CTX 的优先级高于模型 Modelfile 中设置的 num_ctx。

在多块 GPU 可用时选择特定的 GPU 来运行 Ollama

如果你的机器上有多块 GPU，Ollama 默认会在所有 GPU 上运行。

你可以通过在启动 Ollama serve 之前设置环境变量 ONEAPI_DEVICE_SELECTOR 来指定在特定的 Intel GPU 上运行 Ollama，步骤如下（如果 Ollama serve 已经在运行，请确保先将其停止）：

确认多块 GPU 对应的 id (例如0，1等)。你可以通过在加载任何模型时查看 Ollama serve 的日志来找到它们，例如

对于 Windows 用户：

打开命令提示符（cmd），并通过 cd /d PATH\TO\EXTRACTED\FOLDER 命令进入解压后的文件夹

在命令提示符中设置 ONEAPI_DEVICE_SELECTOR 来定义你想使用的 Intel GPU，例如 set ONEAPI_DEVICE_SELECTOR=level_zero:0，其中0应该替换成你期望的 GPU id

通过运行 start-ollama.bat 启动 Ollama serve

对于 Linux 用户：

在终端中输入指令 cd PATH/TO/EXTRACTED/FOLDER 进入解压后的文件夹

在终端中设置 ONEAPI_DEVICE_SELECTOR 来定义你想使用的 Intel GPU，例如 export ONEAPI_DEVICE_SELECTOR=level_zero:0，其中0应该替换成你期望的 GPU id

通过运行 ./start-ollama.sh 启动 Ollama serve

Ollama v0.5.4 之后新增模型支持

当前的 Ollama 英特尔优化版基于 Ollama v0.5.4；此外，以下新模型也已在 Ollama 英特尔优化版中得到支持：

模型	下载（Windows）	下载（Linux）
DeepSeek-R1	ollama run deepseek-r1	./ollama run deepseek-r1
Openthinker	ollama run openthinker	./ollama run openthinker
DeepScaleR	ollama run deepscaler	./ollama run deepscaler
Phi-4	ollama run phi4	./ollama run phi4
Dolphin 3.0	ollama run dolphin3	./ollama run dolphin3
Smallthinker	ollama run smallthinker	./ollama run smallthinker
Granite3.1-Dense	ollama run granite3-dense	./ollama run granite3-dense
Granite3.1-Moe-3B	ollama run granite3-moe	./ollama run granite3-moe

系统环境准备

步骤 1：下载和解压

步骤 2：启动 Ollama Serve

步骤 3：运行 Ollama

系统环境准备

步骤 1：下载和解压

步骤 2：启动 Ollama Serve

步骤 3：运行 Ollama

在 Ollama 中增加上下文长度

在多块 GPU 可用时选择特定的 GPU 来运行 Ollama

Ollama v0.5.4 之后新增模型支持

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签