iPad 也能跑 GPT-4o 级别模型，国产小钢炮的新模型可能会让 AI 硬件不再鸡肋

原创发现明日产品的 2025-01-16 15:24 广东

o了，视听说全齐了

在刚落幕的 CES 2025 展会上，成千上万件 AI 硬件产品印证了一个颠扑不破的行业趋势，那就是 AI 正以排山倒海之势从云端走向我们身边的每一个设备，且一浪更比一浪高。

可以说，AI 不再是产品的加分项，而是产品力的基准线。

对于在硬件下足功夫的传统厂商来说，想把 AI 装进小小的终端设备却绝非易事。好在，AI 模型服务行业已逐渐分化出两条清晰路线：云端 AI 与端侧 AI。

在前者领域，以 OpenAI 为代表的厂商早已为大家所熟知，而谈到后者，有一家公司的身影格外醒目——面壁智能。他们从一开始就押注端侧 AI 路线，如今也已成为这个领域不可忽视的重要玩家。

今天，面壁智能正式发布了一款新模型 MiniCPM-o 2.6。

仅 8B 的参数的它能看视频、听声音、读文字，还能说会道。并且，它的反应快得跟人类一样，几乎没有一点卡顿。

用更通俗的话讲，它能像人一样用眼睛看、用耳朵听、用嘴巴说，用大脑思考。

MiniCPM-o 2.6 开源地址：
GitHub：
https://github.com/OpenBMB/MiniCPM-o
Hugging Face：
https://huggingface.co/openbmb/MiniCPM-o-2_6

端侧 GPT-4o 来了，真·视听说三合一

当我们说 MiniCPM-o 2.6 是「真视频大模型」时，这可不是一句空话。作为全球首个达到 GPT-4o 水平的端侧 AI，它展现出了超越云端模型的全方位感知能力。

在官方演示 demo 中，玩起「三仙归洞」游戏时，它能在观众提问前就追踪小球的位置。

进行记忆卡牌游戏时，它又能准确记住每张牌的图案和位置。

相比于市场上有些宣称支持实时流式视频理解的模型或产品，MiniCPM-o 2.6 能够感知用户提问之前的画面和声音，真听真看真感受，也更贴近人眼的自然视觉交互。

这种持续观察、实时理解的能力，正是其他照片大模型难以企及的。

再说说声音，MiniCPM-o 2.6 不光能听懂人话，还能分辨除人声之外的背景音，比如撕纸、倒水、金属碰撞等声音。而这一点连 GPT-4o 也做不到。

同样一句「你好」，用不同的语气说出来，可能是热情的问候，也可能是冷淡的应付。

人与 AI 交流也该这么自然才对。

传统的 AI 模型处理声音有点像另一种形式的「翻译」，先把声音变成文字，再把文字变回声音。这样一来，说话人的口音、情绪这些微妙的特点就都丢失了。

但 MiniCPM-o 2.6 不一样。

它就像人耳朵一样，能直接捕捉和理解声音中的各种细节。不仅如此，它还能根据需要调整声音的情感和风格，甚至可以模仿特定的声音，或根据描述创造全新的声音。

MiniCPM-o 2.6 现实中优秀的表现在基准测试榜单上也有很好的量化，一举收获音视听「铁人三项」全 SOTA：

MiniCPM-o 2.6 取得实时流式全模态开源模型 SOTA，性能比肩代表全球最高水平的 GPT-4o、Claude-3.5-Sonnet；在语音方面，取得理解、生成开源双 SOTA，问鼎最强开源语音通用模型；在一贯优势凸显的视觉领域，稳坐最强端侧视觉通用模型。

在实时流式视频理解能力的代表榜单 StreamingBench上，MiniCPM-o 2.6 性能同样比肩 GPT-4o、Claude 3.5 Sonnet。值得注意的是，GPT-4o API 无法同时输入语音和视频，目前定量评测输入文本和视频。

在语音理解方面，超越 Qwen2-Audio 7B，实现通用模型开源 SOTA（包括 ASR、语音描述等任务）；在语音生成方面，MiniCPM-o 2.6 超越 GLM-4-Voice 9B，实现通用模型开源 SOTA。

从「能用」到「好用」，面壁走出了自己的路

MiniCPM-o 2.6 的面世离不开其在模型压缩、硬件适配和全模态流式架构等方面的技术突破。

端到端全模态流式架构：基于 MiniCPM 3.0 的 4B 模型构建，通过模块化设计实现视觉、语音的统一处理。采用端到端方式连接各模块，确保多模态信息的无损传递，提升生成内容的自然度。

低延迟模态并发技术：创新采用时分复用技术，将输入信号分割为时间切片并行处理。通过智能语义判断用户输入结束时机，有效降低系统响应延迟。

端到端全模态流式学习：基于语言行为理论，模型不只是简单处理信息，而是理解说话人的社会意图。通过多模态环境学习和角色扮演，实现更高级的语义理解，为未来具身机器人应用奠定基础。

实际上，当我们把目光从这些亮眼的技术成果转向到端侧模型的实际运行环境时，不得不面对一个客观现实。终端设备上的模型部署依旧面临着内存、功耗、算力三座大山。

苹果在其论文《LLM in a flash》中指出，70 亿半精度参数的语言模型，完全加载进终端需要超过 14GB 的 DRAM 空间；Meta 在其 MobileLLM 模型论文中指出，一个约有 5000 焦耳满电能量的 iPhone，仅支持 7B 模型在 10 tokens /秒的 AI 生成速率下对话不足 2 小时。

为了把一头大象装进冰箱，手机芯片厂商加速推进 AI 芯片研发，在先进制程、内存容量及带宽、CPU 和 GPU 性能上发力。手机品牌商也将配备更高性能的电池、散热元器件，提升整体终端硬件能力，更好地支持 AI 模型。

然而，硬件的提升只是解决方案的一部分，真正的瓶颈在于如何用更少的参数承载更多的智能。

面壁团队的研究表明，随着数据-算力-算法的协同进步，更少的参数就能实现同等智能水平。举例来说，2020 年需要 1750 亿参数的 GPT-3 所具备的能力，到 2024 年 2 月仅需 24 亿参数就能实现。

基于这一发现，面壁团队早在去年就提出了大模型密度定律（Densing Law）。

模型能力密度随时间呈指数级增长，实现相同能力的模型参数每 3.3 个月（约 100 天）下降一半，并且模型推理开销随时间指数级下降，以及模型训练开销随时间迅速下降。

模型高效压缩，最终适配终端硬件，由此引发的行业进步也水到渠成。

消费电子下一个拐点的到来，不再是简单的硬件升级，是从底层逻辑上改变了产品的使用方式和用户体验，这也为市场带来了新的机遇和增长点。

在更具象化的图景中，消费者对端侧 AI 产品的需求不断增加，愿意为更智能的产品支付更高的价格，也将促使企业加大在端侧 AI 技术研发和产品创新方面的投入。

据 IDC 预测，2024 年中国终端设备市场中，将有超过半数的设备在硬件层面具备针对 AI 计算任务的算力基础，至 2027 年，这一比例将进一步攀升至接近 80%。

在 CES 2025 展会上，我们已经看到，端侧模型与硬件的融合催生了 AIPC、AIiPhone、AI 智能眼镜、AI 陪伴类玩具等在内的一系列电子产品。

面壁智能的发展轨迹也印证了这一趋势。

仅在去年下半年，面壁智能 MiniCPM 端侧模型加速落地，先后与华为云、加速进化机器人、大象机器人、梧桐科技、长城汽车、联发科技、百度智能云、英特尔建立合作关系，业务版图延伸至智能座舱，机器人、端云协同等多个领域。

面壁智能 CEO 李大海在接受 APPSO 的采访时表示，MiniCPM-o 2.6 将重点关注具身化属性较强的设备。目前，面壁智能已经与人形机器人厂商加速进化建立了深度合作关系。

在他看来，这款全模态端侧模型能够完善机器人的「大脑」功能，为机器人的本体系统提供关键的技术支持，也期待其能够与更多机器人制造商、汽车和手机等具备具身化属性的设备厂商展开合作。

回顾 MiniCPM 的发展史，从第一代 MiniCPM 1.0 旗舰端侧模型发布，迭代至 MiniCPM 3.0，迎来端侧 ChatGPT 时刻。MiniCPM 始终践行「以小博大+高效低成本」的路线。

这一路走来，面壁智能也始终立于中国大模型开源的潮头之上。

自 2024 年 2 月发布以来，MiniCPM 系列端侧模型已累计下载超过 400 万次，获得 Hugging Face 2024 年全球最受欢迎的中国模型。

AI 技术的普惠也正在经历三个阶段的演进：先是让大家用得起，然后是用得方便，最后是用得舒心。而面壁智能正在加速这最后一公里的转变。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签