IT之家 06月07日 09:38
面壁智能发布端侧大模型“前进四”MiniCPM 4.0,号称性能大小王
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

面壁智能推出了新一代端侧大模型MiniCPM 4.0,该模型通过自研CPM.cu推理框架实现了显著的性能提升。MiniCPM 4.0提供8B和0.5B两种参数规模,针对长短文本场景进行了优化,8B版本采用“高效双频换挡”机制,根据任务特征自动切换注意力模式。该模型支持在vLLM、SGLang、LlamaFactory等框架部署,并宣称在模型瘦身和速度提升方面取得了突破,实现了端侧推理的流畅体验。

🚀 MiniCPM 4.0系列包含8B和0.5B两种参数规模,以满足不同应用场景的需求。

💡 MiniCPM 4.0-8B采用“高效双频换挡”机制,能够根据任务特征自动切换注意力模式,实现长短文本的灵活处理。

⚙️ 面壁智能自研CPM.cu推理框架,在极限场景下实现最高220倍提速,常规5倍提速,通过投机采样创新、模型压缩量化创新、端侧部署框架创新,实现90%的模型瘦身和速度提升。

💻 MiniCPM 4.0可在vLLM、SGLang、LlamaFactory、XTuner等开源框架部署,方便开发者使用和集成。

IT之家 6 月 7 日消息,面壁智能 6 日晚发布端侧大模型 MiniCPM 4.0。该公司称新模型通过自研 CPM.cu 推理框架,在极限场景下实现最高 220 倍提速,常规 5 倍提速,支持在 vLLM、SGLang、LlamaFactory 等框架部署。

此次发布的一款 8B 闪电稀疏版,采用创新稀疏架构掀起高效风暴;另一款 0.5B 则被称作“轻巧灵动的最强小小钢炮”。

据官方介绍,此次面壁推出的 MiniCPM 4.0 系列 LLM 模型拥有 8B、0.5B 两种参数规模,针对单一架构难以兼顾长、短文本不同场景的技术难题,MiniCPM 4.0-8B 采用「高效双频换挡」机制,能够根据任务特征自动切换注意力模式:在处理高难度的长文本、深度思考任务时,启用稀疏注意力以降低计算复杂度,在短文本场景下切换至稠密注意力以确保精度,实现了长、短文本切换的高效响应。

据IT之家了解,MiniCPM 4.0 可在 vLLM、SGLang、LlamaFactory、XTuner 等开源框架部署。其内置自研 CPM.cu 极速端侧推理框架,从投机采样创新、模型压缩量化创新、端侧部署框架创新几方面,带来 90% 的模型瘦身和速度提升,官方宣称将实现端侧推理“从天生到终生”的丝滑。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiniCPM 4.0 大模型 端侧推理 面壁智能
相关文章