赛博禅心 01月19日
iPad 里跑“GPT-4o”:面壁新模型,低调开源
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

面壁低调发布了MiniCPM-o 2.6模型,这是一款开源的、端侧运行的多模态模型,性能比肩GPT-4o。它能直接在iPad等设备上运行,具备视觉、听觉和表达能力,无需依赖云端算力,展现了端侧AI的强大潜力。文章还揭示了AI产品中常见的“糊弄学”现象,例如假装思考、看图说话和语音套娃等,这些手段是为了节省算力或掩盖模型不足。而端到端模型则能更真实地处理语音和视频信息,MiniCPM-o 2.6的出现预示着端侧AI将在未来发挥更重要的作用,并与云端AI长期共存。

👁️‍🗨️ MiniCPM-o 2.6模型是一款开源的端侧多模态模型,具备强大的视觉、听觉和表达能力,能够在iPad等设备上本地运行,无需依赖云端服务器。它在性能上可与GPT-4o相媲美,标志着端侧AI技术取得了重大突破。

🗣️ 文章揭露了AI产品中常见的“糊弄学”现象,包括假装费力思考、看图说话和语音套娃等。这些手段为了节省算力或掩盖模型能力不足,例如,一些AI在“看图说话”时,只分析最后一帧画面,而忽略了动态信息。语音助手则可能采用“语音转文字再转语音”的套娃方式,导致信息丢失。

🎧 端到端模型直接处理语音信号,避免了中间的“翻译”环节,能捕捉到更丰富的语气、情绪等信息,更接近真人交流。OpenAI的Realtime API采用了端到端音频算法,实现了极低的语音输入延迟,为用户提供了更流畅的交互体验。

📱 MiniCPM-o 2.6的端侧部署为用户带来更低的成本、更稳定的使用体验和更强的隐私保护,无需担心数据上传或模型降智。对于厂商而言,端侧AI有助于实现产品差异化,并构建以AI为核心的生态系统。端侧AI与云端AI将在未来长期共存,共同融入人们的生活。

原创 金色传说大聪明 2025-01-15 21:40 广东

不糊弄的“SHE”

昨天,面壁低调(没媒体曝光)发布了 新模型 MiniCPM-o 2.6:【开源】【端侧】比肩 GPT-4o,只有 8B,非常强!


最令人瞩目的是,模型可以跑在 iPad 里,全模态,极其大胆

顺着这个事儿,也给大家说到一个概念:AI 糊弄学。来聊聊 AI 产品有多少小套路。






 很强的小钢炮 


拿它举例,是因为这个模型不糊弄,真的很强:

来自赛博禅心音频:翻动书页

来自赛博禅心音频:我中彩票了

 

不过吐槽下... See...Hear...Express...SHE?

OpenAI 出了个 HER,这边就对立着来了个 SHE 是吧?



 

 糊弄的 AI 

 

算力一直是很贵的,所以很多 AI 产品,选择了糊弄:假装费力思考,实际啥也没干


最开始的糊弄,可能是 AI 不知道从哪学来了厚黑的语料,比如:


之后,就是为了省钱,故意优化的了,比如典型的... 某些以搜索见长的 AI,有时并没搜,而是假装看了很多网页,然后猜你一个答案


而在“视频通话”领域,更是重灾区,比如:“看图说话”和“语音套娃”

 


 “看图说话” 

不少厂商都有发布视频通话:比如给他打电话,然后基于摄像头进行问答。 但实际上:很多 AI 都只是假视频 - 截了个摄像头的图,然后看图说话。

 

也因为如此,你看到的各种 Demo 中,都是静态场景。


比如拿了一个苹果,问 AI:你看到了什么? 

AI 可以准确回答:这是一个苹果。 


但如果先拿一个鸡蛋晃荡一下,再拿一个苹果问 AI:你看到了什么? 

AI 也会回答:这是一个苹果。 

ahhhhhhhhh~~ 必然会错,因为他只是对着最后一秒的画面说话!


为什么呢?为了省钱,也就是省算力...甚至用来掩盖模型能力不太行。而对于支持动态视频输入的模型,就没这个问题。就比如下面这个:

 

 语音套娃 

我们会说:“听话要听音” - 中文里有很多信息,是需要语气传达

如果一个人听不懂正反话,比如自嗨于“吾有卧龙凤雏,何愁大事不成”,就会被认为脑子不太灵光。

而我们现在的很多语音助手,也是“卧龙凤雏”般的“大聪明”。 

比如:你说一句反话:“你真棒!”,本意是批评,但语音助手可能识别成文字 “你 真 棒”,理解为赞扬。 在这一来一去之间,语气、语调、情绪等信息都被丢弃了,AI 自然也就比较大聪明了。

(为什么我在骂自己???) 

 

从技术的角度,这是因为很多语音助手采用了“语音转文字,再转语音”的方案:先将你的语音转换成文字,然后让 AI 理解文字,再将 AI 生成的文字转换成语音。这种“套娃”式的处理方式,会导致两个问题:一是速度慢,二是信息丢。 

 

而端到端模型,则是省去了中间的“翻译”环节,直接对语音信号进行处理。好处是明显的,除了能识别文字内容,它还能捕捉到语气、情绪等更丰富的信息。比如你感冒时说话的鼻音,它也能识别,甚至可能会主动关心你的身体状况。 


最典型的,是 OpenAI 的 Realtime API 就采用了端到端音频算法,用声音训练声音,实测语音输入到 ASR 总计约 0.3 秒,体感几乎和真人交流一样。



 

 吐槽一下 

 

我之前通过视频号,直播了一场赛博双簧:AI 说话,我对口型。 


一场直播下来,莫约 1 个小时,盈亏如下


为啥花这么多?因为我善因为我调模型的时候,没“偷工减料”。 






 模型革命 

 

话题回归到 MiniCPM-o 2.6,这是第一次把 4o 级别的多模态端到端模型,从云端放到端侧。


这意味着什么呢? 


对于用户: 


对于厂商: 

 

我们虽无法说端侧 AI 将取代云端 AI(这有点开玩笑)。


但以 MiniCPM-o 2.6 为代表的探路者,实打实地让我们看到了端侧 AI 的潜力,去进一步思考,端侧 AI 和云端 AI 可能会长期共存,融入生活。 

 

以及,这个项目是开源的,可以在这里玩: 

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiniCPM-o 2.6 端侧AI 多模态模型 AI糊弄学 端到端模型
相关文章