彻底改写Transformer！「能量驱动架构」横空出世，通用推理时代要来了？

新智元报道

编辑：海狸

【新智元导读】UIUC、斯坦福与哈佛联合提出全新「能量驱动Transformer（EBT）」架构，突破传统前馈推理方式，以能量最小化模拟人类System 2思维，预训练扩展性能较Transformer++最高提升35%。下一代AI基础架构新变革，来了！

在Transformer统治AI世界十余年之后，

Attention的时代正在退场，真正的思考刚刚开始——

由UIUC、斯坦福、哈佛等顶尖机构联合提出的Energy-Based Transformer（EBT）震撼登场。

它首次将Transformer架构引入能量建模（Energy-Based Models, EBM）框架，彻底打破「前馈即推理」的旧范式。

论文链接：https://arxiv.org/pdf/2507.02092EBT既不是轻量化微调，也不是RNN的改进，而是一种彻底不同的推理机制：

模型不再一次性「说完答案」，而是像人类一样从模糊猜测出发，逐步优化推理路径。

EBT训练更高效，推理更精准，对OOD（Out of Distribution）数据更稳健，在训练效率、提升幅度等方面大幅超越前馈式Transformer（Transformer++）：并且，EBT在文本与图像等多模态任务中展现出惊人的扩展性能，有望实现无监督跨模态通用推理。
「一次生成」vs「动态优化」传统Transformer是一种典型的「前馈预测器」，每次推理过程都是按照从输入prompt，到固定的前向传播路径，再到输出结果一次完成的。无论问题简单还是复杂，模型都以固定的计算路径和步骤完成推理，无法因难度灵活调整。每个token都只做一次决策，不进行「反悔」或者「修改」。这就像一个学生答题时，只能「一遍写完不许改」。在这种模式下，模型既不能「检查答案」，也无法「修正思路」，更谈不上「深入思考」。而EBT彻底颠覆了这种机制。EBT对每个预测都进行多轮优化：

不直接输出token，从随机初始预测开始模型计算该预测与上下文的「能量值」（兼容性高对应能量低，兼容性差对应能量高）通过对能量的梯度下降，不断更新预测，逐步将其「调得更合适」这个过程会持续多轮，直到能量收敛，也就是模型认为这个预测「足够合理」了。这样EBT最后得到的每个token都是动态计算、多步修正的产物，像在能量地形图中「下山」一样逐步收敛到最优答案。也就是说，模型的「思考」被建模成了一个小型优化任务，不是一遍完全输出答案，而是反复尝试—验证—更新—收敛。这个「能量最小化」的过程就是EBT前所未有的System 2 Thinking——更慢，更准，更通用的类人深度思考能力。
EBT「三大跃迁」EBT的思考过程赋予了它三项关键能力上的根本性突破。

动态计算传统Transformer模型是静态的：每个token、每个预测都使用固定的计算路径和深度，无论问题简单还是复杂，计算量一视同仁。而EBT拥有动态计算资源分配能力，可以像人一样，遇到简单问题快速处理，遇到困难问题则投入更多思考。换句话说，EBT可以动态决定要「多想几步」还是「快速收敛」。

不确定度而且，EBT预测能量的设计决定了它可以在连续空间中表达不确定性。Transformer虽然能在离散的token输出中使用softmax表示「概率分布」，但在图像、视频等连续模态中就很难表达不确定性。EBT预测上下文之间的能量建模，自然地通过能量高低表达了预测的「可信程度」。这种能力让EBT能在图像、视频等连续任务中识别哪些位置「值得多想」。

自我验证在能量分数的加持下，EBT天生具备显式的自我验证能力。每次预测，它都会计算衡量上下文匹配程度的「能量分数」。这个分数不仅可以用来判断答案是否靠谱，而且可以生成多个候选答案，并挑出能量最低的答案作为最终结果。
这种机制彻底摆脱了对外部打分器或奖励函数的依赖，将「反思」环节引入了模型结构本身。相比之下，传统架构在「思考能力」上几乎全面溃败。无论是Feed Forward Transformer还是RNN，都缺乏动态计算分配能力、无法建模连续空间中的不确定性，更谈不上对预测结果进行验证。就连在生成模型中备受追捧的Diffusion Transformer，也仅在“动态计算”这一项上有所突破，其余两项依然是空白。相比之下，EBT是目前为止最接近「人类式思考流程」的方案。
越想越准！Transformer望尘莫及EBT不仅在理论特性上惊艳四座，在实际实验中也表现惊人。无论有多少数据、加多大批次，模型有多深，EBT都比经典Transformer++学得更快、更省、效果更稳。具体而言，要达到相同的困惑度（Perplexity），EBT的下降速度快35.98%。也就是说，它只需大约2/3的训练语料，在「数据瓶颈」的情况下更具性价比。在分布式大批次训练环境下，EBT训练收敛速度比Transformer++快28.46%，深度扩展效率提升5.29%，效率不掉队。在OOD（Out of Distribution）数据上，EBT也展现出更强的稳健性。EBT能通过「多轮推理」与「自我验证」大幅缓解泛化性能下降的问题。相比之下，传统 Transformer++ 的表现几乎不随推理次数改变。这意味着，哪怕EBT预训练指标比Transformer略差，一旦开始「思考」，它就能后来居上，「越想越准」。这种「思维带来泛化」的机制，在当前所有主流大模型架构中都是独一无二的。
跨模态通吃：AGI更近一步只要定义清楚「输入」和「候选预测」，EBT就能在无监督中思考和优化。EBT的设计不依赖监督、不依赖额外奖励、不局限于文本或编程，天然适用于任意模态与任务。
对于文本，EBT 能自动学出不同词的规律：简单词能量低，难词能量高，借此自然表达出语义上的不确定性。在图像任务中，EBT告别Diffusion模型的上百步生成式推理，仅用1%的推理步数就能超越Diffusion Transformer（DiT）在图像去噪和分类上的表现。视频帧的「不确定性」预测和注意力调整更是不在话下。这种统一、灵活、高效的推理机制，很可能成为通往「通用智能」的关键。毕竟，关于大模型的终极疑问始终存在：它们，真的会「思考」吗？EBT，或许就是首批有资格回答这个问题的架构之一。

参考资料：

https://x.com/AlexiGlad/status/1942231878305714462

https://x.com/du_yilun/status/1942236593479102757

https://arxiv.org/pdf/2507.02092

文章原文

新智元报道

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签