差评 前天 09:47
小米开源的新推理模型,竟然能在手机上跑起来。。。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了在手机等移动设备上部署小型语言模型的可能性,并提供了两种简便的部署方法。文章指出,小型模型在低延迟、低成本和本地运行方面的优势,使其在特定场景下更具实用性。同时,文章也介绍了小型模型通过知识蒸馏、剪枝、量化和混合专家模型等技术,在性能上取得的突破,并预示着小型模型在AI发展中的重要潜力。

📱手机部署小型模型成为可能: 作者使用2000元手机红米Turbo4成功部署Mimo-7B量化版,即使在断网环境下也能正常运行,展示了在移动设备上运行小型语言模型的潜力。

🛠️两种简易部署方法: 提供了两种在手机上部署AI模型的方法,一种是使用Pocketpal AI应用程序,另一种是下载阿里开发的端侧多模态模型部署平台MnnLlmApp,方便用户体验不同模型。

🚀小型模型的优势: 小型模型具有无视环境、低延迟、低成本的优势。在特定场景下,小型模型能够提供更快的响应速度和更低的部署成本,使其更适合于移动设备和特定领域的应用。

💡小型模型的技术突破: 通过知识蒸馏、剪枝、量化和混合专家模型(MoE)等技术,小型模型在性能上取得了显著提升,甚至能媲美大型模型,例如DeepSeek-R1-Distill和MiniCPM等模型。

江江 2025-05-10 00:00 浙江

还有点东西。



说到语言模型的本地部署,大家的第一反应应该都是烧钱、烧显卡,像世超的陈年老电脑,打个LOL都嗡嗡响,可以说就是那台老古董毁了我的AI梦。


诶,那有没有不吃配置,不吃钞能力,普通人也能感受到本地部署AI的快感的方法呢?


有的兄弟,有的。


世超这台2000元不到的红米Turbo4,居然就能成功部署小米最新的语言模型Mimo-7B量化版。


在完全断网的情况下,它也能一字一句地输出正确的结果。


众所周知,世超心里一直想着差友,所以第一时间赶来给大家出个保姆级教程,包含两种方法。话不多说,准备冻手!


第一种方法,下载Pocketpal AI,这是一款专用于手机跑AI模型的应用程序。


然后打开它,点击Download Model,再点右下角的+号,选择Add From Hugging Face,然后搜索Mimo,选第一个版本下载就好。


不选后面的,是因为后面的数字越大,模型精度越高,咱这手机其实够呛。


最后回到主页,点击Select Model,就能选择模型开始聊天了。


如果嫌麻烦,世超还准备了更简单的方法,直接在浏览器输入这个网址:

https://github.com/alibaba/MNN/tree/master/project/android/apps/MnnLlmApp,这是一款由阿里开发的端侧多模态模型部署平台。


往下滑到Release,点击Download,下载这个APP,就可以随意挑选下载你想体验的本地模型了,甚至还能跑Stable Diffusion。。


OK,部署完成了,来给大伙看看效果吧。世超那天下班时候迷路了,不小心走到了亚马逊的热带雨林,一格信号都没有,我看是活不下去了。。于是我立马掏出了我的Mimo,问他怎么钻木取火。


不到三分钟,他咣咣咣全给我写出来了。


在这,咱小型模型的独特优势已经尽数体现了——无视环境,随时随地本地运行。


直接在手机上本地运行,就意味着不管在雪山、沙漠、海洋、甚至外太空,咱都能随时随地掏出这个私人助理。


那,要是再小一点呢?阿里之前刚发布的Qwen3,有个参数只有0.6B的模型,咱也在他们自家的MNN上试了一下。


嗯。。确实能说话,不过这说出来的话,好像有点深奥了。。


不过,这应该是和手机部署有关,MNN上的模型基本都是对移动端部署进行特殊优化过,防止手机跑崩,模型有些精度丢失也很正常,出现这种情况也只是概率事件。


总之,有了这些小型模型,咱以后去哪都能跟AI聊天了,坐飞船上趟火星也肯定不会无聊了。

有人说,你这是癔症犯了,这辈子能上太空吗?现在哪儿没网啊,那么多大模型APP它哪个不香?


但小型模型的用处,还真不止这点。如果说,AI要想更贴近咱的生活,还真得是更小的模型。


要是AI发展到进家门了,你躺沙发上突然想看电视,喊AI帮你开个电视,这其实也就是个跑腿的活。但如果把指挥家具的都换成大模型,那得等它们上传数据,深度思考,再把数据传回来,估计还没等电视打开,你就刷上短视频了。


这就是参数少的另一个优点——低延迟。没有那么多参数,它就不用考虑那么多东西,完全遵照主人的命令。


而且,参数量越小,训练和部署的成本也就越低。据说,训练一次 GPT-4o 这种级别的模型,就要烧掉 1 亿美元,平民根本烧不起这么大的模型。所以AI公司每次开源新模型,都会放出各种尺寸,就是让大家自由挑选适合自己的模型。


而很多小公司,都是垂直领域的专家,不需要大模型那样的百科全书。


参数少的模型,可以用来被各行各业的公司自己训练,不仅烧钱少,还能炼出一个该领域的专家。现在,有很多专业型模型已经在各自领域发光发热。


像度小满的金融模型的XuanYuan-6B,虽然只有6B,效果就非常好。在注册会计师(CPA)、银行从业资格、基金从业资格、证券从业资格等多项金融领域考试中,这玩意都能展示出金融领域专家的水平。


而现在,很多公司也在开始小型模型上全面发力,很多参数少的模型甚至能媲美大模型。


像咱的DeepSeek,愣是用一些新奇的算法,把参数少的模型性能怼了上去。DeepSeek-R1-Distill的7B和14B版本,在数学推理任务上能超越很多闭源大模型。


还有家叫面壁智能的公司,他们是专门搞端侧模型的,目标就是手机、车机等移动设备,他们搞出的“小钢炮”MiniCPM只有8B,测试表现居然能媲美GPT-4o。


而且,他们很早就把多模态能力塞进了小型模型里,实现了全模态、端到端。


就连苹果都开始自研 3B 参数的模型了,他们的AFM-on-device,在文本总结任务中,其效果能优于Gemma、Phi-3 mini等更大参数的模型。


那问题又来了,这些模型参数这么少,又能赶上大模型,这又凭什么呢?


这些小东西还真有独门秘籍。比如知识蒸馏这方法,就像让老师给学生开小灶,让大模型把学到的知识和经验传授给更小的模型。


以及剪枝、量化等方法,简单说就是在不需要很高精度的情况下,把模型里的高精度计算变成低精度计算,这样模型就能跑得更快。去年英伟达联合Meta发布的 Llama-3.1-Minitron 4B AI 模型,就是从原本的8B模型剪枝而来,让模型速度更快,资源更省。


最后还有一招,叫混合专家模型(MoE)。传统大模型就像个齐心协力的专家组,不管什么问题,都得全组抄家伙上阵。而 MoE 架构的作用,就是把这群专家拆分成 n 个专业小组:有的专门搞数学推导,有的专精语义分析,还有的负责图像识别。。这样,遇到小问题就不需要“全员加班”了。


所以,别看这些模型个头小,说不定就是迈向AI世界的又一大步。就像科技进步从不是一蹴而就的,咱普通人,就静待开花结果就好。


撰文:不咕

编辑:江江 & 面线

美编:子曰


图片、资料来源:

Qwen3, DeepSeek, Mimo, X, github,面壁智能,HuggingFace,知乎

Apple, Introducing Apple’s On-Device and Server Foundation Models

极客公园,NASA 人人必读的《火星救援》是如何诞生的?

证券时报网,度小满”轩辕”系列发布12款金融大模型,金融实战能力出色




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

小型模型 手机AI 模型部署 AI发展
相关文章