原创 刘延 2024-06-20 19:26 上海
以下来自读者大佬刘延总:
手机端侧AI LLM的一些共识与非共识
1、端侧LLM性能瓶颈,不是算力,而是内存速度。-每生成一个token需要把模型在内存中读出一遍,10-15tops算力即可实现7b 10token/s以上的推理速度,功耗也远低于手游,所以无需担心H端侧。-目前手机最快大概也就是LPDDR5T,9600MT/S,折合76.8 GB/s,理论最高能实现7b int4 下20 token/s,或14b int4下10token/s的输出。-存量手机大多内存带宽在40-60GB/s。2、端侧LLM落地,最大阻碍不是技术能力,是机制。(可能国内是机制,全球来看是手机和应用的生态博弈)-云端可拦截不合规的胡说八道内容,端侧不能,因此国内手机厂商端侧落地的大模型都不是AGI类,而是文本总结、图像修复类。3、端侧AI应用,最大阻碍也不是技术能力,是交互——云端也一样-LLM的交互机制需要文字输入,目前绝大多数手机用户唯一能用到文字输入的地方是评论区骂街,连自己意思都表达不清楚,更别说跟LLM交互。4、端侧LLM各家技术上不存在绝对的领先落后。-苹果的3b并非某些测评中表现的那么好,例如,其在MMLU四选一测试中成功的模拟了瞎几把选的概率。但不重要,从国内技术追赶速度来看,训好一个端侧LLM大约也就是一年左右时间。
国内HMOV都有训好的7b规格的模型,至少从MMLU来看,比苹果强不少,端侧放开可直接上。
5、最大的硬件拉动可能还是DRAM
-更多的离线计算转为实时计算,更复杂的长推理任务,甚至更多的 agent 并行。更不用说模型本身的不断膨胀。当然苹果发表过 LLM in a flash,尽量优化内存的占用,但优化出来的空间一定会被很多的负载吃掉。
因此,这些是苹果LLM的意义所在。而之前三星和Google的Gemini是弱弱联合,毫无影响力。1、苹果的端侧LLM有望推动机制进化。2、苹果不管是交互的改进, 还是对用户心智的影响,目前还是独一档的。
3、苹果有望带动用户用LLM。
(完)
欢迎更多读者投稿。也欢迎对端侧 AI 感兴趣的朋友加入讨论
声明:本站转载、编译或摘编文章原文均来自其他媒体,转载、编译或摘编的目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。