掘金 人工智能 前天 12:15
刚刚,谷歌 AI 路线图曝光:竟要抛弃注意力机制?Transformer 有致命缺陷!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文解读了谷歌产品负责人Logan Kilpatrick在AI工程师世界博览会上的演讲内容,揭示了Gemini模型的未来发展蓝图。重点包括全模态能力的增强,智能体技术的应用,以及对无限上下文处理的探索。谷歌计划通过架构创新,小模型和大模型并行的策略,以及开发者平台的升级,来巩固其在AI领域的领先地位。文章也提到了谷歌在AI领域的组织结构变革,强调了研究与产品团队的紧密合作,以及对未来AI发展的积极展望。

🖼️ **全模态能力拓展:** Gemini 将原生支持图像、音频生成,并逐步扩展至视频领域,实现更全面的多模态交互体验。

🤖 **智能体转型:** Gemini 模型正朝着智能体的方向发展,具备更强的推理能力和自主行动能力,未来将实现主动式AI,为用户提供更智能的服务。

💡 **架构创新:** 谷歌正在探索新的架构,以解决现有注意力机制无法实现无限上下文的问题,包括小模型、大模型以及无限上下文解决方案的研究。

🛠️ **开发者平台升级:** 谷歌计划重新定位AI Studio,将其打造为开发者平台,提供Agent构建能力,例如Jules或开发者专属代码Agent,为开发者提供完整的构建体验。

🚀 **组织结构变革:** 谷歌整合了多个AI研究团队到DeepMind,并加强了研究与产品团队的合作,以加速AI技术的研发和应用。

【新智元导读】未来 AI 路线图曝光!谷歌发明了 Transformer,但在路线图中承认:现有注意力机制无法实现「无限上下文」,这意味着下一代 AI 架构,必须「从头重写」。Transformer 的时代,真的要终结了吗?在未来,谷歌到底有何打算?

就在最近,谷歌未来的 AI 路线图曝光!

谷歌产品负责人 Logan Kilpatrick 在 AI 工程师世界博览会的演讲中,介绍了 Gemini 模型的未来。

在未来,Gemini 的全模态是重点,模型正在逐步变成智能体,推理能力还会持续扩展。

要点速览——

· 全模态(r) 

    已经原生支持图像 + 音频生成,接下来是视频 

· Diffusion 的早期实验(r)

    扩散模型相关 

· 默认具备 Agent 能力(m) 

    一流的工具调用与工具使用能力,但更重要的是,模型正在逐步变成智能体

· 推理能力持续扩展(s)

     一个又一个研究突破接踵而至 

· 更多小模型(s) 

    很快会有更多内容可以分享 

· 无限上下文(r) 

    以当前注意力机制和上下文处理方式,这是不可能实现的 我们需要在核心架构层面进行全新创新,才能实现这一目标 

· 大模型 

    规模即一切

注意,(r)、(s) 和 (m) 表示每个项目在谷歌路线图中的进展程度:

• (s) = short: 短期 / 即将上线——表示已经在进行中即将推出的项目

• (m) = medium: 中期——仍在开发中的项目,将在未来几个季度内推出

• (r) = research: 研究 / 长期项目——在发布之前仍处于实验阶段或需要突破性进展

硅谷大厂混战

AI 年中成绩单大盘点

可以看出,谷歌现在是春风得意马蹄疾,Gemini 2.5 Pro 让它稳稳扳回了一局,再次证明了自己在 AI 领域老大哥的地位。

X 上的大 V「Chubby」,也对硅谷大厂们进行了一期「年中盘点」。

OpenAI

目前仍处于领先地位,凭借 o3、o3 pro 以及即将到来的 GPT-5,依然地位稳固。他们保持着定期更新,经常发布 AI 工具,不断增长的用户数量说明了一切。

DeepSeek

DeepSeek 在 r1 取得可观成功后陆续推出了重大更新,但目前全世界仍在等待后续产品 r2。关于 DeepSeek 后期将如何继续推进,目前尚无线索。

Anthropic

仍然是软件开发 (SWE) 领域的领头羊。如果其 CEO 所言不虚,智能体和进一步的发展将在未来几年内实现所有流程的自动化,并由通用智能体来处理。目前,Anthropic 正专注于商业领域(这一点从较低的速率限制上也不难看出),并继续保持强劲地位。

谷歌

然而,今年最大的赢家可能是谷歌,它几乎是从后起之秀跃居领先地位。Gemini 已经取得了令人瞩目成功。产品的定期更新、许多公告,包括出色的 TPU 定位,让谷歌的未来看起来一片光明。

Meta

不可否认,Meta 已经落后了。Llama 4 失败了,Behemoth 也还没有发布。小扎组建了新的超级智能团队,试图再次迎头赶上。Alexandr Wang 从 Scale AI 加入 Meta 是否会成为转折点?仍有待观察。

Grok

Grok 3.5 也即将上线。目前很难评估。Grok 在 Colossus 集群中显然处于有利位置。然而,它是否能训练出更好的模型?仍有待观察。

这其中评价最高的谷歌,接下来一段时间会有什么大动作?

让我们仔细看看 Logan Kilpatrick 的演讲内容,从中找出关键线索。

全谷歌公认,Gemini 2.5 Pro 是谷歌重大转折点。

这次大会上,前 OpenAI 成员、谷歌 AI Studio 产品负责人 Logan Kilpatrick 的演讲干货满满,透露了不少 Gemini 2.5 Pro 以及将来谷歌 Gemini 的计划的细节。

关于 Logan Kilpatrick 这位哥,还有一件趣事:据说 Gemini 制作笑话的能力完全是根据他的推文训练出来的,这就是为什么它们都不好笑。🤣

目前,Logan Kilpatrick 负责 Gemini API 开发及 AGI 研究

在演讲中,Logan Kilpatrick 快速讲了三部分内容:

    关于 Gemini 2.5 Pro 的一些有趣的发布内容;

    回顾过去一年的 Gemini 进展;

    展望未来 —— 模型本身、Gemini App,以及开发者平台的后续计划。

关于 Gemini 2.5 Pro,他认为它被谷歌内部、也被外部开发者生态认为是一次「转折点」——

在数学、编程、推理上,全面封神,稳坐所有榜单第一。

它为 Gemini 的未来奠定了坚实的基础。

Gemini 的愿景

「统一助手」

Logan Kilpatrick 给大家提了一个问题:谷歌过去各产品之间的连接是什么?

大多数人会想到:谷歌账号。但谷歌账号本身其实不「保留状态」,它的作用只是让你登录各个独立产品。

而现在,Gemini 正在成为「统一线程」(thread)——串联起谷歌所有服务的那条线。

Gemini App,很有意思,很酷,体现了谷歌如何思考 AI 产品的未来。

他相信,谷歌的未来会呈现出这样的面貌:

Gemini 将成为统一接口,连接所有谷歌产品,形成真正的「全域助手」。

目前大多数 AI 产品,仍然是「用户主动操作」——你要主动提问,主动请求功能。

但最令人兴奋的是 AI 的下一个阶段:

「主动式 AI」 (Proactive AI) ——AI 主动为你发现问题、提供建议、自动处理任务。

而现在,谷歌全力押注新范式转移:

    多模态能力:原生音频处理已支持 Astra 和 Gemini Live,Veo 技术保持业界领先,视频整合将是下一阶段重点

    模型进化:从单纯的 token 处理器转向具备系统化推理能力的智能体,「推理扩展」尤其值得关注

    架构创新:包括小模型生态、无限上下文解决方案(需突破现有注意力机制限制)以及早期扩散实验展现的惊人 token 处理能力

向「全模态统一模型」迈进

从模型层面看,Gemini 最初就被设想为一个统一多模态模型:音频、图像、视频,全都能处理。

在这方面,谷歌取得了很大进展:

Astro 是谷歌的研究原型,探索为旗下产品带来突破性能力的途径。

目前,Astro 集成了下列能力:

谷歌还在推进「Veo」相关能力(Video + Other),它已在多个指标上达到 SOTA 水平,未来也会并入主线 Gemini 模型。

此外,谷歌还在研究「基于扩散的推理」(diffusion-based reasoning)—— Gemini Diffusion。但此项目仍属研究前沿,尚未进入主线,但前景令人期待。

Gemini Diffusion 有极高吞吐速率,每秒可采样 1000 余 token

智能体成为主流

最近,Logan Kilpatrick 一直在思考:随着系统推理能力越来越强,未来 AI 产品是什么形态?

过去,开发者总是把模型当作黑盒工具:

输入 token,输出 token;

然后在外部构建各种 scaffolding(支架)以增强功能。

但现在,情况变了:

模型自身越来越系统化,越来越能自主做事  ,不再只是「被动计算器」。

他认为,「推理过程」将成为一个核心变革点:如何扩展模型的推理能力。

他非常期待的问题是:

过去外部做的很多 scaffolding,未来是否会被整合进模型的内部推理流程?这将彻底改变开发者构建产品的方式。

更多路线图:小模型、大模型、无限上下文

除此之外,谷歌还会在以下新产品和研究上发力。

当前的 AI 模型架构(如 Transformer)的重要缺陷之一,就是无法很好地支持无限上下文。

谷歌认为,既然注意力机制无法无限扩展,那就必须有新结构。

他们正在积极探索: 如何让模型引入、理解并高效处理超大规模上下文。

即将上线的开发者功能重点如下。

    嵌入模型(Embeddings)  虽然感觉像「AI 早期工具」,但仍是核心组件。  RAG 应用背后大多数都依赖 embedding。  谷歌即将发布一款最先进的 Gemini 嵌入模型,并拓展给更多开发者。

    深度研究 API**(Deep Research API)**  用户对「深度研究」功能喜爱有加。  谷歌正在将这些能力聚合为专门的 API 接口,面向研究型产品开发者。

    Veo3 与 Imagine 4 接入 **API:**很快将上线。

最后一个重点,谷歌计划重新定位「AI Studio」:

不再是 2C 产品,而是明确定位为「开发者平台」。

未来,AI Studio 将成为真正的开发工具平台,内嵌 Agent 构建能力,例如 Jules 或开发者专属代码 Agent,为开发者提供完整构建体验。

2024:Gemini 最疯狂的一年

对谷歌 Gemini 团队来说,过去一年可以说是「最疯狂的一年」。

在谷歌 I/O 上,劈柴展示了一页幻灯片:过去 12 个月,谷歌 Gemini 团队仿佛压缩了 10 年的开发工作。

从个人角度出发,Logan Kilpatrick 认为谷歌真正的优势在于:

不仅在做 AI 基础研究,还在推进科学、几何、机器人等多领域的研究,

这些研究最后都会反馈到主线 Gemini 模型中。

在谷歌 I/O 演讲中,劈柴还展示了另一张幻灯片:在过去一年,谷歌服务器 AI 推理任务处理量提升了 50 倍!

Logan Kilpatrick 认为:「这说明外部开发者生态对 Gemini 模型的需求呈爆炸式增长。」

其实背后的关键不只是技术,而是组织结构的变革。

2023 年初,谷歌把多个 AI 研究团队整合到 DeepMind,制定了新方向:

不再仅限于理论研究,而是要做出真正实用的模型,服务于谷歌内部与外部开发者生态。

之后,又迈出第二步,将产品团队也纳入 DeepMind。这意味着:

最近,谷歌还任命 DeepMind 的首席技术官 Koray Kavukcuoglu 担任新的高级副总裁职位——首席 AI 架构师。

Koray Kavukcuoglu

与研究团队密切合作,把尖端模型能力带到现实世界——

这种「前沿协作」的过程让 Logan Kilpatrick 个人非常享受。

这种创新的节奏非常令人兴奋,他相信这才刚刚开始。

谷歌 DeepMind 内部公式很简单,总结一句话

找到最优秀的人,发现基础设施优势,然后…… 不断发布!

参考资料:

www.youtube.com/watch?v=U-f…

www.semafor.com/article/06/…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

谷歌 Gemini AI 技术路线图
相关文章