新智元报道
新智元报道
由此展现出的模型自主学习能力和多模态能力,都让人为之惊叹。
原生记忆一教就会,精准回答比如下面这个机器狗,刚开始还不会和人打招呼。为此,工作人员给机器狗亲自演示,录了一个视频,比如这个动作,就叫打招呼。看完视频后,机器狗竟然就秒速学会了这个动作!下一个指令,是让它帮忙拿一瓶饮料。没有学过的它,同样不会做。接下来,只要对着摄像头向它展示——「这是我喜欢喝的饮料」,它就立马学会了。在两瓶饮料中,它正确选出了指定的那瓶,表现实在惊艳。甚至,下面这个会看、会听、会想的灵巧手,既能自主玩游戏,还能听懂人类指令,立刻在黄金矿工游戏中完成抓黄金和推箱子的任务。注意,这个过程中不仅需要灵巧手极其精细地操作键盘,还需要它用「大脑」来完成思考,做出精准判断。令人惊喜的是,它非常准确地做到了!这些能力,即便是OpenAI在内的大厂商目前都做还不到。足以见得,RockAI已经走在了行业的最前沿。
离线智能真正的端侧AI为什么说,Yan架构大模型能够实现100%的离线部署,成为真正的「端侧AI」?答案,就藏在它颠覆性的底层架构之中。和目前绝大多数的模型不同,Yan2.0 Preview基于的是RockAI首创的非Transformer架构。它不仅非常轻量而且性能强悍——仅凭3B的原生参数,便在多项关键测试超越了规模更大的Llama3 8B。更重要的是,它的训练效率远超统治当今AI界的Transformer架构。据悉,更大更强的40B模型已经在路上了!而今,继Yan 3B模型成功通过备案后,Yan 2.0 Preview版更是带来了两大突破性的能力飞跃。第一点,就是它有了连续的视频理解能力。比如当人在机器狗面前做各种连续动作,它就可以原样复刻,这部分归功于模型的视频能力。Yan 1.3通过多模态扩展实现对图像与音频的理解和处理,而Yan 2.0 Preview进一步支持视频模态,相当于补齐了多模态里的视频的最后一环。因此可以说,Yan 2.0做到了真正的多模态:一个模型不仅能处理文本,还能处理图像、音频和视频,同时端到端生成文本和音频。第二点,就是在1.3的架构上,2.0创新性地引入基于神经网络的记忆单元。具体来说,在神经网络参数层「内置记忆」,通过可微的记忆模块来实现信息的存储、检索和遗忘。Yan 2.0 Preview架构示意图如上图所示,前向过程可分为记忆更新与记忆检索两个阶段。记忆更新是动态调节:前向过程中,既能通过门控式更新保留长期依赖,又能基于输入分布特性灵活整合新知识。不同于「上下文工程」等方案对记忆信息的显性存储,RockAI将有效信息隐式地记忆到多层神经网络的权重,通过神经网络的多层级抽象、非线性建模等能力,实现更优的记忆性能。在原理上,这种记忆机制与其他记忆机制的差距,好比早期机器学习与深度学习的差距。这种记忆机制,不像其他远端的大模型通过RAG等形式加入前置数据库。要知道,后者的记忆模式都是外置的,模型并没有真正记住这些信息。可以说,采用了特征状态驱动的记忆机制方案的Yan 2.0 Preview,已经初步验证——记忆网络是有效的。之所以加入记忆模块,是因为要让AI像人一样边说边学,AI必须要有记忆。在基于训推同步的自主学习路线上,RocKAI迈出了坚实的一步。这一点,无论是在灵巧手玩游戏时的多模态实时人机交互上,还是机器狗的训推同步上,都淋漓尽致地体现了出来。而在这个过程中,RockAI发现,他们并不孤独:自己的路线,竟然跟硅谷大厂的探索所见略同。无论是谷歌的Titan架构,还是Meta首席科学家LeCun都在强调——必须给模型引入记忆模块,因为AI的学习能力≈记忆能力。但不同的是,这一次,RockAI是先行者。Yan 2.0 Preview不光探索了非注意力机制的记忆可能,还第一次实现了LLM记忆能力验证。接下来,我们就进入了下一个问题:非Transformer架构的创新,给Yan架构大模型带来了什么?真正在消费级硬件上跑通因为架构层面的这种创新,Yan架构大模型就完全不需要依赖云端算力,可以在消费级硬件上跑通了。因此,它可以直接赋予每个端侧设备「灵魂」。它不仅能在无人机、机器人、PC、手机等终端设备中丝滑适配,而且还能让模型智能迎来全新升级。因为无需阉割模型,端侧设备就更加具备了完整性、可持续性。而基于Transformer架构的模型,若想在端上运行、并自主学习,根本就不可行。因为模型通常会被量化裁剪压缩之后,才会植入端设备。而被阉割之后的模型,就不再具备学习能力。但Yan架构大模型,就规避掉了这种短处。在不同小型终端条件下,Yan架构大模型表现始终卓越。在手机端,Yan架构大模型已广泛适配高通、联发科等芯片。Yan架构大模型可在CPU运行、零压缩零裁剪、量化等,RAM只要8G,而且表现不俗。在小米13上,每秒至少可输出18 token;在红米K50上,每秒至少可输出12token;在T-phone上,每秒可输7-8token。在机器人端,Yan模型已广泛适配Intel、树莓派、英伟达等芯片。只要8G内存,Intel i7 1255u上,Yan架构能让机器人拥有看听说想动的能力!为什么要如此执着,将技术做到如此精细的程度呢?这背后,自然是源于他们对于「端侧智能」一直以来坚定的信念——让世界上每一台设备都拥有自己的智能。只有为每一台设备安装大脑,才能做到AI普惠,在三四五线城市,在老年人和小朋友都能用的情况下,端侧设备才是真正普惠的应用场景。说起来,RockAI是怎样决定,不走Transformer这条主流路线的呢?背后的故事是这样的。非Transformer架构,他们走出了第一步近些年来,学界和业界逐渐发现,大家好像被OpenAI带偏了:注意力机制并非万能,Transformer缺陷也很多,比如它的复杂度太高,算力需求惊人。最早的质疑,来自OpenAI的Ilya:「如果互联网公开数据耗尽,GPT预训练如何继续?」另外,谷歌Gemini产品负责人Logan Kilpatrick在最近公开的未来路线图中,就指出当前注意力的最大缺陷:
我们需要在核心架构层面进行全面创新,才能实现这一目标。
大模型原生记忆能力,意味着什么?
记忆,不再是外挂在传统的大模型架构中,知识和信息往往以外挂式方式调用。无论是依赖RAG来补足知识,还是借助外部数据库临时存储用户数据或者搜索引擎,这类方案都更像是一种「拼接式智能」——强大但缺乏连续性。而如今,RockAI正在将记忆能力「注入」模型本身。它不再是一个外挂模块,而是模型的一部分,甚至是它的核心。比如他们展示的那只机器狗,已经能在不断交互中展现出对环境、人的偏好乃至过往经历的「记忆」,表现的行为更像生命体,也意味着:AI开始真正「记住」你。从交互到理解:个性化的跃迁有了原生记忆,大模型就不再只是「下一次回答你问题」的工具,而开始成为理解你的人。它能记住你喜欢什么样的语言风格、你的偏好、你过去的决策习惯;甚至能在你没有明说的时候,通过长期观察为你做出更合适的建议。原生记忆能力不仅让AI变得更加「个性化」,也让人机关系发生质的变化。它不再是工具和操作者的关系,而更像是伙伴与合作者的互动。你不需要每次都从零开始,它会逐步成为你思维方式的延伸。离线部署,隐私与速度的双赢更重要的是,这样的「有记忆的大模型」并不依赖云端,而是实现了离线部署,所有记忆都发生在你的设备本地:更高的响应速度,更小的延迟,更强的数据安全。在隐私日益重要的今天,大模型要想真正走进用户的日常生活、深入个人决策层,必须在保护隐私的基础上实现智能化。而「端侧+记忆」的模式,或许正是这条路的关键解法。人类智能的底层机制,大模型也开始拥有人类智能的演化,从来离不开记忆。没有记忆,就无法理解上下文、无法学习经验、无法形成个性。而现在,大模型也终于开始接近这一认知本质。RockAI的创新之路在国内略显「孤独」,从非Transformer架构设计到终端的记忆能力,再到他们提出的通过群体智能迈向通用人工智能,似乎RockAI成为了创新的孤勇者。
孤独的拓荒人,还是吃螃蟹第一人?在采访最后,新智元问了RockAI联创一个放飞的问题:几年后,未来的终端智能设备会发展出怎样的新形态?2007年,乔布斯站在台上,掏出这部小小的手机,让全世界都沸腾了。自此,iPhone 4改变了人类对工具的使用、延展了人类感官。但iPhone 4的诞生离不开四个条件:全新的触控交互方式、ARM架构恰巧成熟、iOS操作系统,以及App Store带来的应用生态大爆发。现在的硅谷大厂,有的押注AI眼镜,有的押注脑机接口,而Rock AI,押注的是芯片和操作系统。他们判断:AI时代的操作系统一定会出现AI模型层,让设备更智能。而能在离线设备上运行、功耗极低还是多模态的Yan大模型,就是他们的第一张王牌。如果「打造AI时代操作系统」这个终极目标能实现,手机、平板、冰箱、电视,这些设备都将真正「长出脑子」。环顾周围,电子设备已经无处不在:从冰箱到电脑,全球设备总数远远大于全球总人口。如果每个设备都装上AI,市场该有多大?如今,3B的RockAI多模态模型能覆盖70%的场景。翻译、会议纪要等常见功能,本地Yan架构大模型就能做到。如今在行业的上下游,RockAI都有许多合作意愿强烈的伙伴,比如很多芯片厂商、音视频厂商等。下一个iPhone时刻,或许很快就会到来。假如每个设备都能离线运行AI,我们就将看到未来的图景成真,达到真正的「万物有灵」。
文章原文