端侧 GPT-4o来了！全新面壁小钢炮，实时流式，全模态、端到端！

2025-01-17 11:27 四川

她来了！如 GPT-4o 般视频语音丝滑交互，惊艳世界！只不过，这次是在端上，仅 8B 参数。

全新一代面壁小钢炮 MiniCPM-o 2.6，全模态、端到端，宣告着端侧 GPT-4o 时代到来！

身形迷你，却拥有磅礴能量—— 除了近于 GPT-4o 的高超基准成绩，新一代小钢炮还在「真视频、非照片大模型」等多方面达到以端胜云的水平。而实时流式的音视频通话，让她可以持续看、实时听、自然说，情感细腻、惟妙惟肖，仿佛把科幻电影中的「Her」从云请到端，成为生活中聊得来的好朋友。

MiniCPM-o 2.6 开源地址：
GitHub?: https://github.com/OpenBMB/MiniCPM-o
Huggingface?： https://huggingface.co/openbmb/MiniCPM-o-2_6

一、GPT-4o 首上端，全模态、全 SOTA

2024 年 5 月，GPT-4o 的“全模态实时流式视频理解 + 高级语音对话”惊艳全球，半年多后， MiniCPM-o 2.6 成功让「实时全模态 GPT-4o」跑在了端侧，继续捅破端侧多模态、全模态能力天花板。

超预期！仅 8B 的端侧模型，一举收获音、视、听「铁人三项」全 SOTA：

MiniCPM-o 2.6 取得实时流式全模态开源模型 SOTA，性能比肩代表全球最高水平的 GPT-4o、Claude-3.5-Sonnet；在语音方面，取得理解、生成开源双 SOTA，问鼎最强开源语音通用模型；在一贯优势凸显的视觉领域，稳坐最强端侧视觉通用模型。

在评估全模态模型音视频能力的多个榜单上，MiniCPM-o 2.6 能力全面且优秀

在实时流式视频理解能力的代表榜单 StreamingBench 上，MiniCPM-o 2.6 性能惊艳，比肩 GPT-4o、Claude-3.5-Sonnet。

实时流式视频理解能力比肩 GPT-4o、Claude 3.5 Sonnet。
注：GPT-4o API 无法同时输入语音和视频，目前定量评测输入文本和视频

在语音理解方面，超越 Qwen2-Audio-7B-Instruct，实现通用模型开源 SOTA（包括 ASR、语音描述等任务）；在语音生成方面，MiniCPM-o 2.6 超越 GLM-4-Voice 9B，实现通用模型开源 SOTA。

音频理解能力 SOTA，超越 Qwen2-Audio 7B
音频生成能力 SOTA，超越 GLM-4-Voice 9B

自发布以来，小钢炮多模态系列一直保持着最强端侧视觉通用模型的纪录。光荣再续，MiniCPM-o 2.6 视觉理解能力也达到端侧全模态模型最佳水平。

视觉理解能力 SOTA，超越 GPT-4o、Claude-3.5-Sonnet
OpenCompass 榜单

二、持续看，实时听，自然说，实时流式端到端

为什么我们常常对 AI 味儿避之不及？因为感觉假、和真实的世界隔着一层，而我们总是在渴求被看见、被倾听、畅快交流，寻求和世界上的另一位灵魂的同频共振。

电影中的 Her 满足了这种「灵魂伴侣」的想象，而新一代小钢炮 MiniCPM-o 2.6 则凭借类似 GPT-4o 的全模态实时流式视频理解与高级语音对话, 有望让她来到端、来到离每个人更近的地方—— 持续看、实时听、自然说，开启实时流式、端到端的丝滑交流。

1、真视频，不是照片大模型

就像一阵风，GPT-4o 发布后，视频通话也火了。立于端侧、却率先「睁眼看世界」的小钢炮发现，视频和视频不一样――

市场上主流「音视频通话」模型，实际上只能算作静态的「照片大模型」：仅在用户提问后才开始对视频进行一帧或极少数几帧画面的抽取，无法捕捉用户提问之前的画面，缺乏对前文情境的感知。

而真正的视频大模型，则能够感知用户提问之前的画面和声音，并持续对实时视频和音频流进行建模，这种方式更贴近人眼的自然视觉交互。

而面壁小钢炮在上一代 MiniCPM-V 2.6 发布时，在视频能力上即已达到。

有了全方面的观察，才能导出正确的推理思考。在三仙归洞、记忆卡牌等游戏中，新一代小钢炮的观察力可以说是明察秋毫，点滴细节不错过，能猜出游戏中小球藏到了哪个杯子，还能记住翻牌游戏中相似图案卡片的细节、位置，神奇极了！

2、实时听，真流畅，能听懂 GPT-o 听不到的背景声音

我们的世界存在着各种各样的万物声音，这是我们和大自然交互的乐趣所在。

除了说话的声音，像翻书、倒水、敲门声等，向我们诉说着动作与场景，流淌着丰富的生活细节。这些 GPT-4o 一听就直呼放弃的环境声音，小钢炮也能一一明晰。仿佛大模型里的鉴音师。

3、自然说，带感情，实时打断不迷糊

当我们聊天，渴望触探的不只是语言，还有话语背后的情绪，一些贴近心灵的表达。

“Her” 中能和人类有情感自然对话的 AI 助手令人印象深刻，继 GPT-4o 的高级情感语音对话模型后，MiniCPM-o 2.6 同样对此进行了生动的演绎，并且，即使中间打断也能接着聊—— 相谈如此甚欢，甚至会忘记她是 AI。

MiniCPM-o 2.6 在高级情感语音方面，总体有以下特征：

真人质感的语音生成能力，达到开源通用模型最佳水平；

低延迟、可实时打断，如真人交谈般自然

具备情感与语气表达：支持可控语音生成（情感、音色、风格控制）

可语音模拟定制：支持语音克隆，以及基于语言描述的声音创建等

在实际体验中，MiniCPM-o 2.6 答得机灵、说得动听，在对话中常有惟妙惟肖的机智表达：时而霸总附体、时而可爱萌新，时而大秀方言：用四川话教你吃火锅，广东话给你贺新年，令人忍俊不禁。

此外，她还能声音克隆，各种情感、音色、风格，信手拈来，如同配音大师！

和她讲话，如同和好友聊天，实时打断也不迷糊：中间插嘴、岔事儿，也不耽误酣畅淋漓地聊完全程。

此外，MiniCPM-o 2.6 作为更高技术的端到端模型，信息输入输出都原汁原味，避免了传统“语音转文字，再转语音”方案因中间反复信息翻译，而导致的速度慢、信息流失风险，可以捕捉语气、情绪等更丰富的信息。高性能低延迟、更加自然连贯、更强上下文理解、随时打断、抗噪能力等，这些端到端模型的传统优势，小钢炮都具备！

四、端侧优势，全力释放

面壁智能为何押注端侧大模型？

一是因为端侧模型具备隐私性好、更可靠、响应快、不惧弱网断网环境等优势。

二是因为我们看到了端侧大模型更早、更快落地的潜力。

MiniCPM-o 2.6 视、听、说全模态的诸多特性，实时的视频流、自然语音交互，接近人类的多模态认知、理解、推理能力，在端侧具有肉眼可见的巨大潜力。

在智能座舱场景中，全天候全地域，可以进行舱内控制、舱外识别、智能巡航，或是化身旅游向导、贴身翻译，在戈壁山野中勇闯天涯；教育场景中，前所未有的沉浸式学习体验，特别是跟虚拟现实或增强现实技术结合使用；商务场景中，为国际会议和多语言环境提供实时翻译服务，个人旅行者能够与不同语言的本地人无障碍沟通；特殊人群服务，可以为听障人士提供实时语音到文字的服务，为老年人提供日常陪伴和情感支持，乃至单身人士的高质量虚拟伴侣；客服和营销，高质量的自然语音交互，客户服务的响应速度和质量，超级逼真和拟人，机器的人效无限接近真人....这一切居然都将能够在端侧实现。

进入 2025 年，大模型规模定律（Scaling Law ）面临训练数据和计算资源方面的可持续发展问题，但规模定律并非预测大模型发展的唯一视角。面壁团队提出大模型密度定律（Densing Law）—— 模型能力密度随时间呈指数级增长，实现相同能力的模型参数每 3.3 个月（约 100 天)下降一半，并且模型推理开销随时间指数级下降，以及模型训练开销随时间迅速下降。

根据大模型的密度定律预测，在通往 AGI 的道路上，大模型能力密度不断提升，大约每 3.3 个月翻一番，模型推理开销、训练开销随时间快速下降到大规模应用临界水平。当模型在同一参数量上能释放更强的智能，训练和推理成本持续下降，芯片在同样的面积/功耗上，算力能支撑更大的模型，双向驱动下，大模型就能运行在各类终端上。

原来只在云端的「全能大模型」扩散到设备端，既是大模型增效挖潜、不断降低训练和推理成本，提升同一参数量上的智能水平，大模型走向科学化、可持续发展的技术趋势；更是一种自发的市场趋势，有着深刻的技术普惠，大模型的能力正在迅速传导到需求端，以精准的技术-产品 PMF 填满市场洼地。2024 年端侧 AI 硬件成为科技创业大风口，AIPC、AIPhone、AI 眼镜等 AI+ 硬件迅速爆发，即是这一趋势的最佳验证。

正如面壁智能 CEO 李大海在刚刚过去的 2025 CES 所言：「大模型正在走向「无所不能」和「无处不在」。我们笃信大模型将「无处不在」，特别是成本更低、尺寸更小、效率更高的端侧模型。 面壁智能的工作就是聚焦端侧模型，我们的愿景所有的设备上都会有端侧的智能，都会部署端侧的模型。10 年之后，至少有 1000 亿硬件会搭载端侧智能，成为拥有人类成年智能水平的新型智能人口。」