掘金 人工智能 前天 17:18
⁤⁤​⁤‍‬⁣​ ​​​‌​‍​​​​⁤​​‬​​‬⁤⁢ ⁣‍⁤⁢⁤‍⁢​‬​⁡⁡⁡ ‌⁣⁣⁡ 告别高额API!手把手教你在本地免费跑AI大模型,详细操作指南...
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文详细介绍了如何在本地部署和运行大型语言模型,特别以Ollama平台和Qwen3:8B模型为例。文章指导用户完成Ollama的安装,并根据电脑配置(特别是内存大小)选择合适的模型,例如推荐8B模型作为性能与效果的平衡点。文中还演示了如何通过命令行、API接口以及Python代码调用本地模型,并列出了Ollama的常用命令,为用户提供了一个完整的本地大模型运行解决方案。

Ollama是一个便捷的本地大模型运行工具,允许用户快速下载并运行市面上几乎所有的开源大模型。用户只需在官网下载安装,即可通过状态栏图标或命令行启动服务,方便快捷。

选择本地大模型时,需重点考虑模型的功能需求(如工具调用、深度思考、图像生成等)以及电脑的硬件配置,特别是内存(RAM)大小。对于16GB内存的设备,8B参数模型是性能与效果的良好平衡点,而30B以上模型则可能运行困难。

以Qwen3:8B模型为例,通过命令行`ollama run qwen3:8b`即可下载并启动模型。Ollama支持通过API接口或Python代码进行模型调用,提供了灵活的交互方式,并允许通过`temperature`、`max_tokens`等参数精细控制模型生成行为。

Ollama提供了丰富的命令行工具,包括模型运行、下载、列表、删除、创建、推送、复制以及查看帮助等,如`ollama run `、`ollama pull `、`ollama list`等,方便用户管理本地模型库。

最近想要开发一些AI应用,不想要要使用线上的API调用,收费不说,有时候还不稳定。

就想着本地安装一个大模型运行试一试。

这篇文章手把手带你一起安装本地大模型,以及不同配置电脑应该如何选择大模型。

平台Ollama,模型qwen3:8b

当然本地运行大模型也有一定的局限性,对电脑性能,有一定要求。对于参数很大的模型,运行起来有些困难,不过好在都有少参数版本的模型,可以尝鲜。

一、什么是ollama?

ollama是一个本地运行大模型的工具,上面有基本所有市面上的开源大模型。让你快速下载,并可以本地运行。

ollama.com/

下载

官网下载安装就可以了。ollama.com/download

安装好之后,第一次需要点击图标运行。

之后需要授权,授权之后,就启动了。

运行时,状态栏会有一个羊驼图标。(如果没有重启一下电脑)

也可以命令行输入ollama。

如果有日志,就安装成功了。

二、模型怎么选择?

有两个点:

本地运行大模型,特别需要看电脑的配置,特别是内存(RAM)大小

我的是 16GB 内存的 M4 MacBook Pro

选择模型的原则是:

你如你不会选,可以把你的电脑配置发给AI,问一下怎么选就可以了。

例如:

我的电脑是mac bookpro M4芯片,14G内存。需要在本地运行ollama模型,需要支持工具调用、深度思考,有哪些模型可选。

三、安装大模型

因为我要支持工具调用,选择的是qwen3:8B

如果你想拉取其他版本(例如 30B,对内存要求更高),可以指定为 ollama run qwen3:30b

模型大约有 4.1 GB 左右,运行之后,就会开始下载。

ollama run qwen3:8b

所有可用模型在这:ollama.com/search

四、调用大模型

Ollama 有2种运行方式,命令行和 API 服务。

1. 命令行运行

执行ollama run qwen3:8b

2. 通过api接口调用

通过浏览器访问下面的网址,可以查看当前运行模型的信息:

http://localhost:11434/api/tags

下面是几个api调用的案例

# --- 案例1 ---# 这个例子会请求 qwen3:8b 模型,返回内容。curl http://localhost:11434/api/generate -d '{  "model": "qwen3:8b",  "prompt": "你好呀",  "stream": false}'# --- 参数控制 ---# 你可以控制生成文本的更多参数,例如温度 (temperature)、最大 token 数 (max_tokens)、# top_p等。用于调整模型的生成行为。curl http://localhost:11434/api/generate -d '{  "model": "qwen3:8b",  "prompt": "你好",  "stream": false,  "options": {    "temperature": 0.7,    "num_predict": 50,     "top_p": 0.9  }}'

3. 通过python代码调用

#!/usr/bin/env python3# -*- coding: utf-8 -*-"""极简的Ollama调用Qwen3:8B模型演示需要先安装ollama库: pip install ollama需要先拉取模型: ollama pull qwen3:8b"""import ollamadef chat():    """流式输出演示"""    try:        print("\n=== 流式输出演示 ===")        print("Qwen3:8B 流式回复:")                # 启用流式输出        stream = ollama.chat(            model='qwen3:8b',            messages=[                {                    'role': 'user',                    'content': '请写一首关于春天的短诗。'                }            ],            stream=True        )                # 逐步打印回复        for chunk in stream:            print(chunk['message']['content'], end='', flush=True)        print()  # 换行            except Exception as e:        print(f"流式输出错误: {e}")if __name__ == "__main__":    print("=== Ollama Qwen3:8B 演示 ===")        # 基础对话演示    chat        print("\n演示结束!")

五、ollama常用命令

参考资料:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Ollama 本地大模型 Qwen3:8B AI部署 模型选择
相关文章