单卡10分钟部署MiniCPM4-0.5B：轻量级大模型本地运行指南

掘金人工智能 07月30日 10:27

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

MiniCPM 4是一款专为边缘端设计的超高效大型模型，通过在模型架构、学习算法、训练数据和推理系统四个维度进行深度优化，实现了极致的性能提升。其核心技术包括InfLLM v2的可训练稀疏注意力机制，大幅降低了长文本处理的计算开销；Model Wind Tunnel 2.0的预测扩展能力和BitCPM的极限三值量化，显著提高了训练效率和模型压缩率。数据方面，UltraClean和UltraChat v2提供了高质量的预训练和微调数据集。推理系统CPM.cu和ArkInfer则保证了模型的轻量化、高效性和跨平台部署能力。文章详细介绍了在Ubuntu22.04环境下，使用Conda创建虚拟环境、安装依赖、下载预训练模型以及运行演示脚本的完整部署流程，并提供了解决部署过程中常见问题的指导，最终实现模型的成功运行。

🌟 **高效模型架构与学习算法**：MiniCPM 4采用了InfLLM v2的可训练稀疏注意力机制，使得每个token仅需计算5%的token相关性，极大降低了长文本处理的计算成本。同时，Model Wind Tunnel 2.0提供了高效的可预测扩展能力，BitCPM实现了90%的模型参数位宽压缩，并结合FP8低精度计算和多token预测训练策略，显著提升了训练效率和模型性能。

📚 **高质量训练数据**：该模型在数据层面也进行了精心优化，通过UltraClean项目构建了迭代数据清洗策略，并开源了高质量的中文和英文预训练数据集UltraFinweb。此外，UltraChat v2生成了涵盖知识、推理、指令遵循、长文本理解及工具调用等多维度的高质量监督微调数据集，为模型的泛化能力奠定了坚实基础。

⚡ **高效推理系统与部署**：MiniCPM 4的推理系统CPM.cu集成了稀疏注意力、模型量化和推测采样，实现了高效的填充和解码。ArkInfer则提供了跨平台的部署能力，支持多种后端环境。文章详细指导了在Ubuntu 22.04、Python 3.10、Cuda 12.1.1环境下，通过克隆GitHub仓库、创建Conda虚拟环境、安装依赖、下载模型（使用modelscope）以及运行演示脚本的完整部署流程。

🛠️ **部署过程的实践细节**：部署过程中，文章详细说明了基础环境的配置要求，包括Ubuntu版本、Python版本和CUDA版本。在模型下载环节，提供了使用modelscope编写Python脚本下载模型的具体代码。对于运行`hf_based_demo.py`时可能出现的模型路径错误和缺少`accelerate`依赖等问题，文章也给出了详细的修改和安装指导，确保用户能够成功运行演示。

🖥️ **网页演示的实现**：在完成所有配置和依赖安装后，文章展示了MiniCPM 4成功运行的最终结果，并提及了其网页演示功能。这表明该模型不仅在技术层面实现了高效优化，在实际应用和用户交互方面也提供了便捷的演示界面，方便用户体验和测试其性能。

一、介绍

MiniCPM 4 是一个极其高效的边缘侧大型模型，经过了模型架构、学习算法、训练数据和推理系统四个维度的高效优化，实现了极致的效率提升。

🏗️ 高效的模型架构：

InfLLM v2 – 可训练的稀疏注意力机制：采用可训练的稀疏注意力机制架构，每个 token 只需要计算与 128K 长文本中不到 5% 的 token 的相关性，显著降低了长文本处理的计算开销

🧠 高效的算法学习：

Model Wind Tunnel 2.0 – 高效的可预测扩展：引入了下游任务性能的扩展预测方法，使得模型训练配置搜索更加精确BitCPM – 极限三值量化：将模型参数位宽压缩至 3 个值，实现了 90% 的极端模型位宽减少高效的训练工程优化：采用 FP8 低精度计算技术结合多 token 预测训练策略

📚 高质量的训练数据：

UltraFinweb

⚡ 高效的推理系统：

CPM.cu – 轻量级且高效的 CUDA 推理框架：集成稀疏注意力、模型量化和推测采样以实现高效的填充和解码ArkInfer – 跨平台部署系统：支持在多个后端环境中的高效部署，提供灵活的跨平台适应能力

二、部署过程

基础环境最低要求说明：

环境名称	版本信息
Ubuntu	22.04.5 LTS
python	3.10
Cuda	12.1.1
NVIDIA Corporation	3060

1、构建基础镜像

在算家云容器中心的租赁页面中，构建基础镜像 Miniconda-Ubuntu-22.04-cuda12.1.1

2、从 github 仓库克隆项目：

# 克隆 MiniCPM4 项目(如果克隆速度过慢可以开启学术代理加速)git clone https://github.com/OpenBMB/MiniCPM.git

3、创建虚拟项目

# 创建一个名为 MiniCPM4 的新虚拟环境，并指定 Python 版本为 3.10conda create -n MiniCPM4 python=3.10 -y

等待安装完成

4、安装模型依赖包

# 激活 MiniCPM4 虚拟环境conda activate MiniCPM4# 切换到项目工作目录cd /MiniCPM# 在 MiniCPM4 环境中安装 requirements.txt 依赖pip install -r requirements.txt

依赖安装成功如下图所示：

5、下载预训练模型

推荐下载方法：

1.安装 modelscope 依赖包。

pip install modelscope

2.创建一个 Python 下载脚本

vim modelscope_download.py

3.在创建的脚本中插入以下下载代码

# Python 代码下载模型from modelscope import snapshot_downloadmodel_dir = snapshot_download('OpenBMB/MiniCPM3-4B', cache_dir='./', revision='master')

保存文件：Esc --》Shift + ：–》输入英文的：–》输入：wq

如果你正在编辑文本，先按 Esc 键退出插入模式。

然后，直接按 Shift + :（不需要先按冒号，这个组合键已经包含了冒号的输入），屏幕上会出现一个冒号，提示你输入命令。

接着，输入 wq，表示你想要保存文件并退出。

最后，按 Enter 键执行命令。

4.执行 modelscope_download.py 文件进行模型下载

python modelscope_download.py

6、运行 hf_based_demo.py 文件

#切换到hf_based_demo.py 文件目录cd demo/minicpm# 运行 hf_based_demo.py 文件python hf_based_demo.py

出现以上报错，需要修改模型路径

# 编辑 hf_based_demo.py 文件vim hf_based_demo.py

将上方划红线的部分修改为刚刚下载模型的路径，并且修改模型的 gradio 页面 IP 和端口

第二次运行 hf_based_demo.py 文件

# 运行 hf_based_demo.py 文件python hf_based_demo.py

出现以上结果，还需要继续安装 accelerate 依赖

pip install accelerate

第三次运行 hf_based_demo.py 文件

# 运行 hf_based_demo.py 文件python hf_based_demo.py

可以成功运行：

一、介绍

二、部署过程

1、构建基础镜像

2、从 github 仓库克隆项目：

3、创建虚拟项目

4、安装模型依赖包

5、下载预训练模型

6、运行 hf_based_demo.py 文件

三、网页演示

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

一、介绍

二、部署过程

1、构建基础镜像

2、从 github 仓库 克隆项目：

3、创建虚拟项目

4、安装模型依赖包

5、下载预训练模型

6、运行 hf_based_demo.py 文件

三、网页演示

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

2、从 github 仓库克隆项目：