小米开源的新推理模型，竟然能在手机上跑起来。。。

差评前天 09:47

小米开源的新推理模型，竟然能在手机上跑起来。。。

文章探讨了在手机等移动设备上部署小型语言模型的可能性，并提供了两种简便的部署方法。文章指出，小型模型在低延迟、低成本和本地运行方面的优势，使其在特定场景下更具实用性。同时，文章也介绍了小型模型通过知识蒸馏、剪枝、量化和混合专家模型等技术，在性能上取得的突破，并预示着小型模型在AI发展中的重要潜力。

📱手机部署小型模型成为可能: 作者使用2000元手机红米Turbo4成功部署Mimo-7B量化版，即使在断网环境下也能正常运行，展示了在移动设备上运行小型语言模型的潜力。

🛠️两种简易部署方法: 提供了两种在手机上部署AI模型的方法，一种是使用Pocketpal AI应用程序，另一种是下载阿里开发的端侧多模态模型部署平台MnnLlmApp，方便用户体验不同模型。

🚀小型模型的优势: 小型模型具有无视环境、低延迟、低成本的优势。在特定场景下，小型模型能够提供更快的响应速度和更低的部署成本，使其更适合于移动设备和特定领域的应用。

💡小型模型的技术突破: 通过知识蒸馏、剪枝、量化和混合专家模型（MoE）等技术，小型模型在性能上取得了显著提升，甚至能媲美大型模型，例如DeepSeek-R1-Distill和MiniCPM等模型。

江江 2025-05-10 00:00 浙江

还有点东西。

说到语言模型的本地部署，大家的第一反应应该都是烧钱、烧显卡，像世超的陈年老电脑，打个LOL都嗡嗡响，可以说就是那台老古董毁了我的AI梦。

诶，那有没有不吃配置，不吃钞能力，普通人也能感受到本地部署AI的快感的方法呢？

有的兄弟，有的。

世超这台2000元不到的红米Turbo4，居然就能成功部署小米最新的语言模型Mimo-7B量化版。

在完全断网的情况下，它也能一字一句地输出正确的结果。

众所周知，世超心里一直想着差友，所以第一时间赶来给大家出个保姆级教程，包含两种方法。话不多说，准备冻手！

第一种方法，下载Pocketpal AI，这是一款专用于手机跑AI模型的应用程序。

然后打开它，点击Download Model，再点右下角的+号，选择Add From Hugging Face，然后搜索Mimo，选第一个版本下载就好。

不选后面的，是因为后面的数字越大，模型精度越高，咱这手机其实够呛。

最后回到主页，点击Select Model，就能选择模型开始聊天了。

如果嫌麻烦，世超还准备了更简单的方法，直接在浏览器输入这个网址：

https://github.com/alibaba/MNN/tree/master/project/android/apps/MnnLlmApp，这是一款由阿里开发的端侧多模态模型部署平台。

往下滑到Release，点击Download，下载这个APP，就可以随意挑选下载你想体验的本地模型了，甚至还能跑Stable Diffusion。。

OK，部署完成了，来给大伙看看效果吧。世超那天下班时候迷路了，不小心走到了亚马逊的热带雨林，一格信号都没有，我看是活不下去了。。于是我立马掏出了我的Mimo，问他怎么钻木取火。

不到三分钟，他咣咣咣全给我写出来了。

在这，咱小型模型的独特优势已经尽数体现了——无视环境，随时随地本地运行。

直接在手机上本地运行，就意味着不管在雪山、沙漠、海洋、甚至外太空，咱都能随时随地掏出这个私人助理。

那，要是再小一点呢？阿里之前刚发布的Qwen3，有个参数只有0.6B的模型，咱也在他们自家的MNN上试了一下。

嗯。。确实能说话，不过这说出来的话，好像有点深奥了。。

不过，这应该是和手机部署有关，MNN上的模型基本都是对移动端部署进行特殊优化过，防止手机跑崩，模型有些精度丢失也很正常，出现这种情况也只是概率事件。

总之，有了这些小型模型，咱以后去哪都能跟AI聊天了，坐飞船上趟火星也肯定不会无聊了。

有人说，你这是癔症犯了，这辈子能上太空吗？现在哪儿没网啊，那么多大模型APP它哪个不香？

但小型模型的用处，还真不止这点。如果说，AI要想更贴近咱的生活，还真得是更小的模型。

要是AI发展到进家门了，你躺沙发上突然想看电视，喊AI帮你开个电视，这其实也就是个跑腿的活。但如果把指挥家具的都换成大模型，那得等它们上传数据，深度思考，再把数据传回来，估计还没等电视打开，你就刷上短视频了。

这就是参数少的另一个优点——低延迟。没有那么多参数，它就不用考虑那么多东西，完全遵照主人的命令。

而且，参数量越小，训练和部署的成本也就越低。据说，训练一次 GPT-4o 这种级别的模型，就要烧掉 1 亿美元，平民根本烧不起这么大的模型。所以AI公司每次开源新模型，都会放出各种尺寸，就是让大家自由挑选适合自己的模型。

而很多小公司，都是垂直领域的专家，不需要大模型那样的百科全书。

参数少的模型，可以用来被各行各业的公司自己训练，不仅烧钱少，还能炼出一个该领域的专家。现在，有很多专业型模型已经在各自领域发光发热。

像度小满的金融模型的XuanYuan-6B，虽然只有6B，效果就非常好。在注册会计师（CPA)、银行从业资格、基金从业资格、证券从业资格等多项金融领域考试中，这玩意都能展示出金融领域专家的水平。

而现在，很多公司也在开始小型模型上全面发力，很多参数少的模型甚至能媲美大模型。

像咱的DeepSeek，愣是用一些新奇的算法，把参数少的模型性能怼了上去。DeepSeek-R1-Distill的7B和14B版本，在数学推理任务上能超越很多闭源大模型。

还有家叫面壁智能的公司，他们是专门搞端侧模型的，目标就是手机、车机等移动设备，他们搞出的“小钢炮”MiniCPM只有8B，测试表现居然能媲美GPT-4o。

而且，他们很早就把多模态能力塞进了小型模型里，实现了全模态、端到端。

就连苹果都开始自研 3B 参数的模型了，他们的AFM-on-device，在文本总结任务中，其效果能优于Gemma、Phi-3 mini等更大参数的模型。

那问题又来了，这些模型参数这么少，又能赶上大模型，这又凭什么呢？

这些小东西还真有独门秘籍。比如知识蒸馏这方法，就像让老师给学生开小灶，让大模型把学到的知识和经验传授给更小的模型。

以及剪枝、量化等方法，简单说就是在不需要很高精度的情况下，把模型里的高精度计算变成低精度计算，这样模型就能跑得更快。去年英伟达联合Meta发布的 Llama-3.1-Minitron 4B AI 模型，就是从原本的8B模型剪枝而来，让模型速度更快，资源更省。

最后还有一招，叫混合专家模型（MoE）。传统大模型就像个齐心协力的专家组，不管什么问题，都得全组抄家伙上阵。而 MoE 架构的作用，就是把这群专家拆分成 n 个专业小组：有的专门搞数学推导，有的专精语义分析，还有的负责图像识别。。这样，遇到小问题就不需要“全员加班”了。

所以，别看这些模型个头小，说不定就是迈向AI世界的又一大步。就像科技进步从不是一蹴而就的，咱普通人，就静待开花结果就好。

撰文：不咕

编辑：江江 & 面线

美编：子曰

图片、资料来源：

Qwen3, DeepSeek, Mimo, X, github，面壁智能，HuggingFace，知乎

Apple, Introducing Apple’s On-Device and Server Foundation Models

极客公园，NASA 人人必读的《火星救援》是如何诞生的？

证券时报网，度小满”轩辕”系列发布12款金融大模型，金融实战能力出色

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

小型模型手机AI 模型部署 AI发展

相关文章

Deploying Edge and Embedded AI Systems with Heather Gorr - #655

Stable Diffusion and LLMs at the Edge with Jilei Hou - #633

The Evolution of Evolutionary AI with Risto Miikkulainen - #367

Enterprise Readiness, MLOps and Lifecycle Management with Jordan Edwards - #321

留给“端侧大模型”的时间不多了

Revolutionizing Machine Learning Pipelines: Google Cloud MLOps for Continuous Integration and Deployment

搭了一个ChatTTS WebUI界面和api接口

NVIDIA AI: Discover how @Wealthsimple used NVIDIA's #AI #Inference platform to successfully reduce their model deployment duration from several months...

Google’s dilemma: AI expansion vs achieving climate goals

研究称GPT-4通过图灵测试