魔搭ModelScope社区 02月27日
英特尔显卡+魔搭社区,一行命令快速部署本地大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Intel与魔搭合作推出Ollama英特尔优化版镜像,旨在帮助开发者在英特尔GPU上便捷运行本地大模型。该优化版基于IPEX-LLM,支持多种英特尔GPU,包括集成显卡和Arc独立显卡。文章详细介绍了在Windows和Linux系统下如何安装、配置和运行Ollama,包括下载解压、启动服务以及运行模型。此外,还介绍了如何切换模型下载源、增加上下文长度以及在多GPU环境下选择特定GPU运行Ollama。Ollama v0.5.4之后新增模型也得到了支持,为开发者提供了更多选择。

🚀**Ollama英特尔优化版镜像**:由Intel和魔搭合作推出,允许开发者在英特尔GPU上直接运行Ollama,无需繁琐的安装步骤,极大地简化了本地大模型的部署流程。

💻**Windows和Linux系统指南**:文章提供了详尽的Windows和Linux系统使用指南,包括环境准备、Ollama Serve的启动以及模型的运行,确保不同操作系统的用户都能顺利上手。

⚙️**模型下载源切换与上下文长度调整**:用户可以根据需求切换模型的下载源(ModelScope或Ollama),并且能够灵活调整上下文长度,以适应不同的应用场景和模型需求。

🎛️**多GPU环境下的GPU选择**:在拥有多块GPU的机器上,用户可以通过设置环境变量来指定Ollama在特定的Intel GPU上运行,从而实现更精细的资源控制和优化。

2025-02-26 22:29 浙江

Intel 在魔搭上线了Ollama 英特尔优化版镜像,该镜像提供基于 IPEX-LLM 的 Ollama 英特尔优化版,开发者可在英特尔GPU上直接免安装运行 Ollama,一行代码部署本地大模型。

00


前言



近期,Intel和魔搭合作,在魔搭社区上线了Ollama 英特尔优化版镜像,该镜像提供基于 IPEX-LLM 的 Ollama 英特尔优化版,开发者可在英特尔GPU (如搭载集成显卡的个人电脑,Arc 独立显卡等) 上直接免安装运行 Ollama。


DeepSeek-R1作为开源领域的重磅模型,以其卓越的推理能⼒在各类任务中脱颖⽽出,吸引了⼴泛关注。本文将⼿把⼿教您如何在纯CPU环境下,以低成本部署大模型。


Ollama 英特尔优化版在如下设备上进行了验证:


    Intel Core Ultra processors

    Intel Core 11th - 14th gen processors

    Intel Arc A-Series GPU

    Intel Arc B-Series GPU


01


Windows 使用指南



系统环境准备

检查 GPU 驱动程序版本,并根据需要进行更新:

    对于 Intel Core Ultra processors (Series 2) 或者 Intel Arc B-Series GPU,推荐将GPU 驱动版本升级到最新版本

    对于其他的 Intel 核显和独显,推荐使用 GPU 驱动版本 32.0.101.6078


步骤 1:下载和解压

下载链接:

https://www.modelscope.cn/models/ipexllm/ollama-ipex-llm/resolve/master/ollama-0.5.4-ipex-llm-2.2.0b20250220-win.zip

下载 Ollama 英特尔 Windows 优化版。

然后,将 zip 文件解压到一个文件夹中。


步骤 2:启动 Ollama Serve

根据如下步骤启动 Ollama serve:

    打开命令提示符(cmd),并通过在命令行输入指令 "cd /d PATH\TO\EXTRACTED\FOLDER" 进入解压缩后的文件夹

    在命令提示符中运行 "start-ollama.bat" 即可启动 Ollama Serve。随后会弹出一个窗口,如下所示:




步骤 3:运行 Ollama

接下来通过在相同的命令提示符(非弹出的窗口)中运行 ollama run deepseek-r1:7b(可以将当前模型替换为你需要的模型),即可在 Intel GPUs 上使用 Ollama 运行 LLMs:


02


Linux 使用指南



系统环境准备

检查GPU 驱动程序版本,并根据需要进行更新;推荐用户按照消费级显卡驱动安装指南来安装 GPU 驱动。


步骤 1:下载和解压

下载链接:

https://www.modelscope.cn/models/ipexllm/ollama-ipex-llm/resolve/master/ollama-0.5.4-ipex-llm-2.2.0b20250220-ubuntu.tgz

然后,开启一个终端,输入如下命令将 tgz 文件解压到一个文件夹中。

    tar -xvf [Downloaded tgz file path]

    步骤 2:启动 Ollama Serve

    进入解压后的文件夹,执行./start-ollama.sh启动 Ollama Serve:

      cd PATH/TO/EXTRACTED/FOLDER./start-ollama.sh


      步骤 3:运行 Ollama

      在 Intel GPUs 上使用 Ollama 运行大语言模型,如下所示:

        打开另外一个终端,并输入指令 cd PATH/TO/EXTRACTED/FOLDER 进入解压后的文件夹

        在终端中运行 ./ollama run deepseek-r1:7b(可以将当前模型替换为你需要的模型)


      03


      模型下载源



      Ollama 英特尔优化版默认从 ModelScope 下载模型。通过在运行 Ollama 之前设置环境变量 IPEX_LLM_MODEL_SOURCE 为 modelscope 或 ollama,你可以切换模型的下载源。


      使用 Ollama 英特尔优化版默认从 ModelScope 下载的模型,在执行 ollama list 时仍会显示实际的模型 ID,例如:

        NAME                                                             ID              SIZE      MODIFIEDmodelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF:Q4_K_M    f482d5af6aec    4.7 GB    About a minute ago

        除了 ollama run 和 ollama pull,其他操作中模型应通过其实际 ID 进行识别,例如:ollama rm modelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF:Q4_K_M


        在 Ollama 中增加上下文长度

        默认情况下,Ollama 使用 2048 个 token 的上下文窗口运行模型。也就是说,模型最多能 “记住” 2048 个 token 的上下文。


        要增加上下文长度,可以在启动 Ollama serve 之前设置环境变量 IPEX_LLM_NUM_CTX,步骤如下(如果 Ollama serve 已经在运行,请确保先将其停止):


          对于 Windows 用户:

            打开命令提示符(cmd),并通过 cd /d PATH\TO\EXTRACTED\FOLDER 命令进入解压后的文件夹

            在命令提示符中将 IPEX_LLM_NUM_CTX 设置为所需长度,例如:set IPEX_LLM_NUM_CTX=16384

            通过运行 start-ollama.bat 启动 Ollama serve


          对于 Linux 用户:

            在终端中输入指令 cd PATH/TO/EXTRACTED/FOLDER 进入解压后的文件夹

            在终端中将 IPEX_LLM_NUM_CTX 设置为所需长度,例如:export IPEX_LLM_NUM_CTX=16384

            通过运行 ./start-ollama.sh 启动 Ollama serve

        TIP

        IPEX_LLM_NUM_CTX 的优先级高于模型 Modelfile 中设置的 num_ctx。


        在多块 GPU 可用时选择特定的 GPU 来运行 Ollama

        如果你的机器上有多块 GPU,Ollama 默认会在所有 GPU 上运行。

        你可以通过在启动 Ollama serve 之前设置环境变量 ONEAPI_DEVICE_SELECTOR 来指定在特定的 Intel GPU 上运行 Ollama,步骤如下(如果 Ollama serve 已经在运行,请确保先将其停止):

          确认多块 GPU 对应的 id (例如0,1等)。你可以通过在加载任何模型时查看 Ollama serve 的日志来找到它们,例如



          对于 Windows 用户:

            打开命令提示符(cmd),并通过 cd /d PATH\TO\EXTRACTED\FOLDER 命令进入解压后的文件夹

            在命令提示符中设置 ONEAPI_DEVICE_SELECTOR 来定义你想使用的 Intel GPU,例如 set ONEAPI_DEVICE_SELECTOR=level_zero:0,其中0应该替换成你期望的 GPU id

            通过运行 start-ollama.bat 启动 Ollama serve



          对于 Linux 用户:

            在终端中输入指令 cd PATH/TO/EXTRACTED/FOLDER 进入解压后的文件夹

            在终端中设置 ONEAPI_DEVICE_SELECTOR 来定义你想使用的 Intel GPU,例如 export ONEAPI_DEVICE_SELECTOR=level_zero:0,其中0应该替换成你期望的 GPU id

            通过运行 ./start-ollama.sh 启动 Ollama serve


        Ollama v0.5.4 之后新增模型支持

        当前的 Ollama 英特尔优化版基于 Ollama v0.5.4;此外,以下新模型也已在 Ollama 英特尔优化版中得到支持:


        模型

        下载(Windows)

        下载(Linux)

        DeepSeek-R1

        ollama run deepseek-r1

        ./ollama run deepseek-r1

        Openthinker

        ollama run openthinker

        ./ollama run openthinker

        DeepScaleR

        ollama run deepscaler

        ./ollama run deepscaler

        Phi-4

        ollama run phi4

        ./ollama run phi4

        Dolphin 3.0

        ollama run dolphin3

        ./ollama run dolphin3

        Smallthinker

        ollama run smallthinker

        ./ollama run smallthinker

        Granite3.1-Dense

        ollama run granite3-dense

        ./ollama run granite3-dense

        Granite3.1-Moe-3B

        ollama run granite3-moe

        ./ollama run granite3-moe






        ?点击关注ModelScope公众号获取

        更多技术信息~




        阅读原文

        跳转微信打开

        Fish AI Reader

        Fish AI Reader

        AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

        FishAI

        FishAI

        鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

        联系邮箱 441953276@qq.com

        相关标签

        Ollama Intel GPU 本地大模型 IPEX-LLM 模型部署
        相关文章