⁤⁤⁤‍‬⁣ ‌‍⁤‬‬⁤⁢ ⁣‍⁤⁢⁤‍⁢‬⁡⁡⁡ ‌⁣⁣⁡ 告别高额API！手把手教你在本地免费跑AI大模型，详细操作指南...

最近想要开发一些AI应用，不想要要使用线上的API调用，收费不说，有时候还不稳定。

就想着本地安装一个大模型运行试一试。

这篇文章手把手带你一起安装本地大模型，以及不同配置电脑应该如何选择大模型。

平台Ollama，模型qwen3:8b

当然本地运行大模型也有一定的局限性，对电脑性能，有一定要求。对于参数很大的模型，运行起来有些困难，不过好在都有少参数版本的模型，可以尝鲜。

一、什么是ollama?

ollama是一个本地运行大模型的工具，上面有基本所有市面上的开源大模型。让你快速下载，并可以本地运行。

ollama.com/

下载

官网下载安装就可以了。ollama.com/download

安装好之后，第一次需要点击图标运行。

之后需要授权，授权之后，就启动了。

运行时，状态栏会有一个羊驼图标。（如果没有重启一下电脑）

也可以命令行输入ollama。

如果有日志，就安装成功了。

二、模型怎么选择？

有两个点：

看模型是否支持你需要的功能，例如工具调用、深度思考、图像生成、向量化等。

看你的电脑配置能够运行什么级别的模型。

相同的模型，参数大小对性能的要求也不一样，参数越少，要求越低。

本地运行大模型，特别需要看电脑的配置，特别是内存（RAM）大小。

我的是 16GB 内存的 M4 MacBook Pro

选择模型的原则是：

8B (80亿) 参数左右 是性能和效果比较平衡的中间点。

14B (140亿) 参数 是 16GB 内存可以流畅运行的上限。

小于 8B 的模型会非常快，占用资源少。

大于 30B 的模型基本不适合在 16GB 内存的设备上本地运行。

你如你不会选，可以把你的电脑配置发给AI，问一下怎么选就可以了。

例如：

我的电脑是mac bookpro M4芯片，14G内存。需要在本地运行ollama模型，需要支持工具调用、深度思考，有哪些模型可选。

三、安装大模型

因为我要支持工具调用，选择的是qwen3:8B

如果你想拉取其他版本（例如 30B，对内存要求更高），可以指定为 ollama run qwen3:30b

模型大约有 4.1 GB 左右，运行之后，就会开始下载。

ollama run qwen3:8b

所有可用模型在这：ollama.com/search

四、调用大模型

Ollama 有2种运行方式，命令行和 API 服务。

1. 命令行运行

执行ollama run qwen3:8b

2. 通过api接口调用

通过浏览器访问下面的网址，可以查看当前运行模型的信息：

http://localhost:11434/api/tags

下面是几个api调用的案例

# --- 案例1 ---# 这个例子会请求 qwen3:8b 模型，返回内容。curl http://localhost:11434/api/generate -d '{  "model": "qwen3:8b",  "prompt": "你好呀",  "stream": false}'# --- 参数控制 ---# 你可以控制生成文本的更多参数，例如温度 (temperature)、最大 token 数 (max_tokens)、# top_p等。用于调整模型的生成行为。curl http://localhost:11434/api/generate -d '{  "model": "qwen3:8b",  "prompt": "你好",  "stream": false,  "options": {    "temperature": 0.7,    "num_predict": 50,     "top_p": 0.9  }}'

3. 通过python代码调用

#!/usr/bin/env python3# -*- coding: utf-8 -*-"""极简的Ollama调用Qwen3:8B模型演示需要先安装ollama库: pip install ollama需要先拉取模型: ollama pull qwen3:8b"""import ollamadef chat():    """流式输出演示"""    try:        print("\n=== 流式输出演示 ===")        print("Qwen3:8B 流式回复:")                # 启用流式输出        stream = ollama.chat(            model='qwen3:8b',            messages=[                {                    'role': 'user',                    'content': '请写一首关于春天的短诗。'                }            ],            stream=True        )                # 逐步打印回复        for chunk in stream:            print(chunk['message']['content'], end='', flush=True)        print()  # 换行            except Exception as e:        print(f"流式输出错误: {e}")if __name__ == "__main__":    print("=== Ollama Qwen3:8B 演示 ===")        # 基础对话演示    chat        print("\n演示结束!")

五、ollama常用命令

ollama run <model_name>：运行一个模型并进入对话模式。如果模型不存在，会自动下载。

ollama pull <model_name>：下载指定模型到本地。

ollama list 或 ollama ls：列出本地已下载的所有模型。

ollama rm <model_name>：从本地删除指定模型。

ollama create <model_name> -f <Modelfile>：通过 Modelfile 创建或自定义模型。

ollama serve：在后台启动 Ollama API 服务（macOS 和 Windows 通常自动运行）。

ollama push <model_name> <registry_url>：将本地模型推送到 Ollama 注册表。

ollama cp <source_model> <destination_model>：复制一个模型为新的名称。

ollama show <model_name> <field>：显示模型的详细信息（如 Modelfile 内容、参数等）。

ollama help：查看所有命令及其用法帮助。

参考资料：

ollama应该使用哪种本地模型进行工具调用？(www.docker.com/blog/local-…)

ollama.com/search

一、什么是ollama?

下载

二、模型怎么选择？

三、安装大模型

四、调用大模型

1. 命令行运行

2. 通过api接口调用

3. 通过python代码调用

五、ollama常用命令

参考资料：

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签