刚刚，谷歌AI路线图曝光：竟要抛弃注意力机制？Transformer有致命缺陷！

新智元报道

编辑：Aeneas KingHZ

【新智元导读】未来AI路线图曝光！谷歌发明了Transformer，但在路线图中承认：现有注意力机制无法实现「无限上下文」，这意味着下一代AI架构，必须「从头重写」。Transformer的时代，真的要终结了吗？在未来，谷歌到底有何打算？

就在最近，谷歌未来的AI路线图曝光！

谷歌产品负责人Logan Kilpatrick在AI工程师世界博览会的演讲中，介绍了Gemini模型的未来。

在未来，Gemini的全模态是重点，模型正在逐步变成智能体，推理能力还会持续扩展。

要点速览——

· 全模态（r）

已经原生支持图像 + 音频生成，接下来是视频

· Diffusion的早期实验（r）

扩散模型相关

· 默认具备Agent能力（m）

一流的工具调用与工具使用能力，但更重要的是，模型正在逐步变成智能体

· 推理能力持续扩展（s）

一个又一个研究突破接踵而至

· 更多小模型（s）

很快会有更多内容可以分享

· 无限上下文（r）

以当前注意力机制和上下文处理方式，这是不可能实现的我们需要在核心架构层面进行全新创新，才能实现这一目标

· 大模型

规模即一切

注意，(r)、(s) 和 (m) 表示每个项目在谷歌路线图中的进展程度：

• (s) = short: 短期/即将上线——表示已经在进行中或即将推出的项目

• (m) = medium: 中期——仍在开发中的项目，将在未来几个季度内推出

• (r) = research: 研究/长期项目——在发布之前仍处于实验阶段或需要突破性进展

硅谷大厂混战AI年中成绩单大盘点可以看出，谷歌现在是春风得意马蹄疾，Gemini 2.5 Pro让它稳稳扳回了一局，再次证明了自己在AI领域老大哥的地位。

X上的大V「Chubby」，也对硅谷大厂们进行了一期「年中盘点」。

OpenAI

目前仍处于领先地位，凭借o3、o3 pro以及即将到来的GPT-5，依然地位稳固。他们保持着定期更新，经常发布AI工具，不断增长的用户数量说明了一切。

DeepSeek

DeepSeek在r1取得可观成功后陆续推出了重大更新，但目前全世界仍在等待后续产品r2。关于DeepSeek后期将如何继续推进，目前尚无线索。

Anthropic

仍然是软件开发(SWE)领域的领头羊。如果其CEO所言不虚，智能体和进一步的发展将在未来几年内实现所有流程的自动化，并由通用智能体来处理。目前，Anthropic 正专注于商业领域（这一点从较低的速率限制上也不难看出），并继续保持强劲地位。

谷歌

然而，今年最大的赢家可能是谷歌，它几乎是从后起之秀跃居领先地位。Gemini 已经取得了令人瞩目成功。产品的定期更新、许多公告，包括出色的TPU定位，让谷歌的未来看起来一片光明。

Meta

不可否认，Meta已经落后了。Llama 4失败了，Behemoth也还没有发布。小扎组建了新的超级智能团队，试图再次迎头赶上。Alexandr Wang从Scale AI加入Meta是否会成为转折点？仍有待观察。

Grok

Grok 3.5也即将上线。目前很难评估。Grok在Colossus集群中显然处于有利位置。然而，它是否能训练出更好的模型？仍有待观察。

这其中评价最高的谷歌，接下来一段时间会有什么大动作？

让我们仔细看看Logan Kilpatrick的演讲内容，从中找出关键线索。

全公司公认，Gemini 2.5 Pro是谷歌重大转折点这次大会上，前OpenAI成员、谷歌AI Studio产品负责人Logan Kilpatrick的演讲干货满满，透露了不少Gemini 2.5 Pro以及将来谷歌Gemini的计划的细节。

关于Logan Kilpatrick这位哥，还有一件趣事：据说Gemini制作笑话的能力完全是根据他的推文训练出来的，这就是为什么它们都不好笑。🤣

目前，Logan Kilpatrick负责Gemini API开发及AGI研究

在演讲中，Logan Kilpatrick快速讲了三部分内容：

关于Gemini 2.5 Pro的一些有趣的发布内容；

回顾过去一年的Gemini进展；

展望未来 —— 模型本身、Gemini App，以及开发者平台的后续计划。

关于Gemini 2.5 Pro，他认为它被谷歌内部、也被外部开发者生态认为是一次「转折点」——

在数学、编程、推理上，全面封神，稳坐所有榜单第一。

它为Gemini的未来奠定了坚实的基础。

Gemini的愿景「统一助手」Logan Kilpatrick给大家提了一个问题：谷歌过去各产品之间的连接是什么？大多数人会想到：谷歌账号。但谷歌账号本身其实不「保留状态」，它的作用只是让你登录各个独立产品。

而现在，Gemini正在成为「统一线程」（thread）——串联起谷歌所有服务的那条线。

Gemini App，很有意思，很酷，体现了谷歌如何思考AI产品的未来。

他相信，谷歌的未来会呈现出这样的面貌：

Gemini将成为统一接口，连接所有谷歌产品，形成真正的「全域助手」。

目前大多数AI产品，仍然是「用户主动操作」——你要主动提问，主动请求功能。

但最令人兴奋的是AI的下一个阶段：

「主动式AI」（Proactive AI） ——AI 主动为你发现问题、提供建议、自动处理任务。

而现在，谷歌全力押注新范式转移：

多模态能力：原生音频处理已支持Astra和Gemini Live，Veo技术保持业界领先，视频整合将是下一阶段重点

模型进化：从单纯的token处理器转向具备系统化推理能力的智能体，「推理扩展」尤其值得关注

架构创新：包括小模型生态、无限上下文解决方案（需突破现有注意力机制限制）以及早期扩散实验展现的惊人token处理能力

向「全模态统一模型」迈进从模型层面看，Gemini最初就被设想为一个统一多模态模型：音频、图像、视频，全都能处理。

在这方面，谷歌取得了很大进展：

谷歌I/O大会宣布了Gemini的原生语音能力（文本转语音TTS、语音合成、语音交互）；

它已经支持自然对话，听起来非常自然；

这些能力已集成到Astro与Gemini Live。

Astro是谷歌的研究原型，探索为旗下产品带来突破性能力的途径。

目前，Astro集成了下列能力：

谷歌还在推进「Veo」相关能力（Video + Other），它已在多个指标上达到SOTA水平，未来也会并入主线Gemini模型。

此外，谷歌还在研究「基于扩散的推理」（diffusion-based reasoning）—— Gemini Diffusion。但此项目仍属研究前沿，尚未进入主线，但前景令人期待。

Gemini Diffusion有极高吞吐速率，每秒可采样1000余token

智能体成为主流最近，Logan Kilpatrick一直在思考：随着系统推理能力越来越强，未来AI产品是什么形态？

过去，开发者总是把模型当作黑盒工具：

输入token，输出 token；

然后在外部构建各种scaffolding（支架）以增强功能。

但现在，情况变了：

模型自身越来越系统化，越来越能自主做事，不再只是「被动计算器」。

他认为，「推理过程」将成为一个核心变革点：如何扩展模型的推理能力。

他非常期待的问题是：

过去外部做的很多scaffolding，未来是否会被整合进模型的内部推理流程？这将彻底改变开发者构建产品的方式。

更多路线图：小模型、大模型、无限上下文除此之外，谷歌还会在以下新产品和研究上发力。

更多「小模型」——轻量级，适合移动端与低功耗设备；

更大的模型——满足用户对极致能力的期待；

更重要的是：「无限上下文」的研究突破。

当前的AI模型架构（如Transformer）的重要缺陷之一，就是无法很好地支持无限上下文。

谷歌认为，既然注意力机制无法无限扩展，那就必须有新结构。

他们正在积极探索：如何让模型引入、理解并高效处理超大规模上下文。

即将上线的开发者功能重点如下。

嵌入模型（Embeddings） 虽然感觉像「AI早期工具」，但仍是核心组件。 RAG应用背后大多数都依赖embedding。姑给即将发布一款最先进的Gemini嵌入模型，并拓展给更多开发者。

深度研究API（Deep Research API） 用户对「深度研究」功能喜爱有加。谷歌正在将这些能力聚合为专门的 API 接口，面向研究型产品开发者。

Veo3与Imagine 4接入API：很快将上线。

最后一个重点，谷歌计划重新定位「AI Studio」:

不再是2C产品，而是明确定位为「开发者平台」。

未来，AI Studio将成为真正的开发工具平台，内嵌Agent构建能力，例如Jules或开发者专属代码Agent，为开发者提供完整构建体验。

2024：Gemini最疯狂的一年对谷歌Gemini团队来说，过去一年可以说是「最疯狂的一年」。

在谷歌I/O上，劈柴展示了一页幻灯片：过去12个月，谷歌Gemini团队仿佛压缩了10年的开发工作。

从个人角度出发，Logan Kilpatrick认为谷歌真正的优势在于：

不仅在做AI基础研究，还在推进科学、几何、机器人等多领域的研究，

这些研究最后都会反馈到主线Gemini模型中。

在谷歌I/O演讲中，劈柴还展示了另一张幻灯片：在过去一年，谷歌服务器AI推理任务处理量提升了50倍！

Logan Kilpatrick认为：「这说明外部开发者生态对Gemini模型的需求呈爆炸式增长。」

其实背后的关键不只是技术，而是组织结构的变革。

2023 年初，谷歌把多个AI研究团队整合到DeepMind，制定了新方向：

不再仅限于理论研究，而是要做出真正实用的模型，服务于谷歌内部与外部开发者生态。

之后，又迈出第二步，将产品团队也纳入DeepMind。这意味着：

DeepMind负责研发模型、推动研究；

同时也打造产品并将其交付给全球用户。

最近，谷歌还任命DeepMind的首席技术官Koray Kavukcuoglu担任新的高级副总裁职位——首席AI架构师。

Koray Kavukcuoglu

与研究团队密切合作，把尖端模型能力带到现实世界——

这种「前沿协作」的过程让Logan Kilpatrick个人非常享受。

这种创新的节奏非常令人兴奋，他相信这才刚刚开始。

谷歌DeepMind内部公式很简单，总结一句话：

找到最优秀的人，发现基础设施优势，然后……不断发布！

参考资料：

https://www.youtube.com/watch?v=U-fMsbY-kHY&t=1676s

https://www.semafor.com/article/06/11/2025/google-names-new-chief-ai-architect-to-advance-developments

文章原文

新智元报道

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签