原创通义大模型 2025-05-22 16:19 浙江

如何在手机上运行千亿参数模型

全球开源模型冠军 Qwen3、端到端全模态模型 Qwen2.5-Omni，现已成功在手机上跑通！

在 MNN 的支持下，Qwen3 系列模型已适配 Android、iOS 及桌面端，实现低延迟、本地化、高安全的 AI 体验。同时，Qwen2.5-Omni 的语音理解、图像分析等多模态能力也在移动端得到完整释放。

小Tips

MNN：一个高效、轻量的深度学习框架，专注于在端侧设备（手机、嵌入式设备）上实现高性能的模型推理与训练，让大模型也能在各类设备中都能高效运行。

MNN-LLM：基于 MNN 引擎打造的大型语言模型运行时解决方案，能让大语言模型（LLM）更好落地于手机、PC 和物联网等终端设备。

Qwen3：全球领先的开源大语言模型，具备强大的语言理解、逻辑推理、代码生成等能力，是一款“全能型 AI 大脑”。现已开源 0.6B 至 235B 共 8 个尺寸版本，无论是企业级服务器还是手机、手表等小型设备，都能灵活部署、高效运行。

Qwen2.5-Omni：端到端全模态模型，体积小、易部署，支持语音、图像、文本等多种输入方式，真正实现“听懂你说的、看懂你给的、写出你需要的。”

MNN Chat APP 支持自定义 Sampler 设置、System Prompt 和 Max New Tokens，你可以根据需要调节模型输出的风格、长度和人设，让 Qwen3 的回答更贴合你的使用场景。

⬆️ 官方推荐 Sample 参数

是不是已经迫不及待想要动手尝试了？小编为你整理了一份适用于 Android、iOS 和桌面端的完整部署流程，跟着做就能轻松上手。

Android 平台部署

Android 用户可以直接从 GitHub 上下载，也可自行编译定制功能。

git clone https://github.com/alibaba/MNN.git
cd project/android
mkdir build_64
../build_64.sh "-DMNN_LOW_MEMORY=true  -DMNN_BUILD_LLM=true -DMNN_SUPPORT_TRANSFORMER_FUSE=true -DMNN_ARM82=true -DMNN_USE_LOGCAT=true -DMNN_OPENCL=true -DLLM_SUPPORT_VISION=true -DMNN_BUILD_OPENCV=true -DMNN_IMGCODECS=true -DLLM_SUPPORT_AUDIO=true -DMNN_BUILD_AUDIO=true -DMNN_BUILD_DIFFUSION=ON -DMNN_SEP_BUILD=ON"
find . -name "*.so" -exec cp {} ../apps/MnnLlmApp/app/src/main/jniLibs/arm64-v8a/  
cd ../apps/MnnLlmApp/
./gradlew installDebug

iOS 平台部署

现阶段 iOS 用户需要手动编译，部署过程分为 5 步

1、下载仓库代码

git clone https://github.com/alibaba/MNN.git

2、编译 MNN.framework

cd MNN/
sh package_scripts/ios/buildiOS.sh "-DMNN_ARM82=true -DMNN_LOW_MEMORY=true -DMNN_SUPPORT_TRANSFORMER_FUSE=true -DMNN_BUILD_LLM=true 
-DMNN_METAL=ON
-DMNN_BUILD_DIFFUSION=ON
-DMNN_BUILD_OPENCV=ON
-DMNN_IMGCODECS=ON
-DMNN_OPENCL=OFF
-DMNN_SEP_BUILD=OFF

3、拷贝 framework 到 iOS 项目中

mv MNN-iOS-CPU-GPU/Static/MNN.framework

/apps/iOS/MNNLLMChat/MNN.framework

4、配置依赖库，这里需要确保 Link Binary With Libraried 中包含 MNN.framework 和其他三个 Framework。

如果没有包含，可以手动添加:

5、修改 iOS 签名并编译项目

cd /apps/iOS/MNNLLMChat

open MNNLLMiOS.xcodeproj

在 Xcode 的 Signing & Capabilities 页面中设置 Team 和 Bundle Identifier 后，点击运行按钮即可启动应用，加载并运行 Qwen3 或 Qwen2.5-Omni 模型。

后续我们也会上线 TestFlight 安装包，让你一键安装、轻松使用！

桌面端部署（Windows、Mac、Linux）

如果你想在电脑上尝试这些模型，也非常简单，只需要从魔搭平台下载模型，再配合 MNN 源码编译即可。

1、模型下载

#命令行工具下载

modelscope download --model 'MNN/Qwen2.5-Omni-3B-MNN' --local_dir 'path/to/dir'

2、环境安装

x86架构额外加

MNN_AVX512

的宏：

Mac 推荐增加

MNN_METAL

的宏

git clone https://github.com/alibaba/MNN.git
# 编译
cd MNN
mkdir build && cd build
cmake .. -DLLM_SUPPORT_VISION=ON -DMNN_BUILD_OPENCV=ON -DMNN_IMGCODECS=ON -DLLM_SUPPORT_AUDIO=ON -DMNN_BUILD_AUDIO=ON -DMNN_LOW_MEMORY=true -DMNN_CPU_WEIGHT_DEQUANT_GEMM=true -DMNN_BUILD_LLM=true -DMNN_SUPPORT_TRANSFORMER_FUSE=true
make -j

编译完成后，可以看到 mnncli 产物，通过 mnncli 命令可以执行下载、benchmark 测试、启动 rest 服务等功能。

➡️ Qwen3模型推理

# 运行

./mnncli serve Qwen3-4B-MNN

完成上述命令执行后，系统将在本地启动一个 REST 服务端，接下来你就可以在 Chatbox 等客户端配置使用 MNN 服务啦～

➡️ Qwen2.5-Omni 模型推理

./llm_demo /path/to/Qwen2.5-Omni-3B-MNN/config.json

你可以通过上述命令启动推理流程，Qwen2.5-Omni 支持在提示词中嵌入图像和音频资源，实现图文+语音的联合理解。例如：

<img>https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg</img>介绍一下这张图片
<audio>https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-Audio/audio/translate_to_chinese.wav</audio>