掘金 人工智能 前天 14:38
北大 DeepSeek 论文或预定 ACL Best Paper!梁文锋署名
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

北大DeepSeek联合发布的NSA论文已被ACL 2025录用,并有望获得最佳论文奖。该技术通过革新传统注意力机制,显著提升算力效率,被认为是长文本处理的突破。NSA技术将长文本处理速度提高了最多11倍,结合算法创新和硬件改进,在不牺牲硬件性能的前提下提高效率。此外,北大张铭教授团队还有多篇论文上榜ACL,涵盖大模型高效后训练、金融多模态评估数据集、数学推理增强方法和交通流量预测等多个领域。

🚀原生稀疏注意力(NSA)技术革新传统注意力机制,通过结合算法创新和硬件优化,显著提升长文本处理速度,最高可达11倍,为长文本处理带来革命性突破。

📊北大联合DeepSeek提出的NSA技术,在ACL 2025评审中获得极高评分,有望斩获最佳论文奖,将AI行业的焦点从“模型规模竞赛”拉向“算力效率竞赛”。

💰NSA技术实现了“长下文的算力平权”,使得开源模型也能达到闭源模型(如ChatGPT、Gemini)的上下文窗口能力,降低了AI应用成本。

📚北大张铭教授团队在ACL 2025上有多篇论文被录用,涵盖数据为中心视角下大模型的高效后训练、首个金融多模态评估数据集FinMME、大语言模型中的数学推理增强方法和基于大语言模型的交通流量预测方法等多个前沿领域。

【新智元导读】北大 DeepSeek 联合发布的 NSA 论文,目前已被 ACL 2025 录用并获得了极高评分,甚至有望冲击最佳论文奖。该技术颠覆传统注意力机制,实现算力效率飞跃,被誉为长文本处理的革命性突破。

重磅惊喜!

北大与 DeepSeek 合作,并由梁文锋亲自提交到 arXiv 的论文,将有望斩获 ACL 2025 最佳论文(ACL Best Paper)。

论文地址:arxiv.org/abs/2502.11…

要知道今年的 ACL 格外的卷,总投稿数高达 8000 多篇,创历史之最,而 ACL 2024 总投稿数仅为 4407,几乎翻倍!

原生稀疏注意力(Native Sparse Attention,NSA)论文的 Meta Review 的 OA 分数已经确认得到了 4.5 分,这是一个相当高的分数,满分为 5 分。

按照 ACL 的 OA 评分标准,4.5 分已经获得了 Borderline Award,也就是说非常有望获得 ACL 这届的最佳论文。

这篇论文的发布在当时引起广泛的社区关注,NSA 把 AI 行业的焦点从「模型规模竞赛」拉向「算力效率竞赛」,堪称 2025 年上半年最具杠杆效应的底层技术突破之一。

DeepSeek-R1 的发布引发了 AI 行业的「价值重估」,DeepSeek 用「低成本 + 同效能」的开源技术撼动了当时 AI 界人们固有的「有卡才行」的认知。

而 NSA 技术进一步实现了「长下文的算力平权」,让开源模型也能达到闭源模型(ChatGPT、Gemini 等)才能满足的上下文窗口。

NSA 将长文本处理速度提高了最多 11 倍,该方法结合了算法创新和改进的硬件,提高效率而不用牺牲硬件性能。

NSA 的出现,是对传统注意力机制的一次革新,传统模型依赖于全注意力机制,将每个 Token 与其他所有 Token 进行比较。

传统机制虽然对于短篇文本有效,但随着文本长度的增加,这一过程会显著变慢,并且计算成本变得非常高。

NSA 是 DeepSeek-R1「爆火出圈」后的第一篇论文,同时在 NSA 发布一周后,DeepSeek 进行了更广为人知的「开源周」活动分享。

硬件对齐与原生可训练稀疏注意力

为什么要革新传统的注意力机制?

长文本处理能力是新一代语言模型的关键需求,但传统注意力机制带来的巨大计算开销一直是一个棘手的问题。

在这种背景下,稀疏注意力机制展现出了提升计算效率同时又能保持模型性能的巨大潜力。

北大和 DeepSeek 提出名为 NSA 的创新性稀疏注意力机制,它能够原生支持训练,通过将算法创新与硬件优化相结合,实现了高效的长文本处理。

NSA 采用了动态分层的稀疏策略:在保证全局信息获取的同时,还能够精确捕捉局部细节,这得益于其巧妙结合了粗粒度的令牌压缩和细粒度的令牌选择。

NSA 架构如下图所示,通过三条并行的注意力分支来处理输入序列。对于每一个查询(query),前面的键(key)和值(value)会分别被处理成三种不同的注意力方式:

每条分支所生成的不同注意力模式。图中的绿色区域表示需要计算注意力分数的部分,而白色区域则是可以跳过、不计算的区域。

NSA 的主要创新点有两个:一是通过精心设计的算法平衡了计算密度,并针对现代硬件做了专门优化,显著提升了运行速度;二是实现了端到端的训练模式,在确保模型性能的前提下大幅降低了预训练的计算量。

如图 1 所示,实验结果显示:采用 NSA 预训练的模型在通用基准测试、长文本处理和指令推理等多个任务上,性能均达到或超过了使用完整注意力机制的模型。

此外,在处理 64k 长度序列时,无论是 decoding、前向传播还是反向传播,NSA 都展现出了显著的速度优势,充分证明了它在模型全生命周期中的高效性。

该论文第一作者为北京大学计算机学院硕士生袁境阳(北京大学,导师为张铭教授),合作者包括高华佐(DeepSeek),代达劢(DeepSeek),罗钧宇(北京大学)、肖之屏(华盛顿大学)等。

通讯作者为梁文锋(DeepSeek),曾旺丁(DeepSeek),张铭教授(北京大学)。

录用论文一览

除了 NSA 论文外,北京大学张铭教授团队的其他论文也同样上榜。

数据为中心视角下大模型的高效后训练

论文名: A Survey on Efficient LLM Training: From Data-centric Perspectives

这是首个从数据中心视角系统性剖析 LLM 高效后训练的综述。

该文创新性地提出了一个涵盖数据选择、质量增强、合成数据生成、数据蒸馏与压缩及自演化数据生态的分类框架,深入总结了各领域代表性方法并展望未来研究方向,旨在为学界和业界探索大规模模型训练中数据利用的最大潜力提供关键启示。

该论文作者包含罗钧宇(北京大学,导师为张铭教授),吴伯涵(北京大学),罗霄(UCLA),肖之屏(华盛顿大学),靳轶乔(佐治亚理工),涂荣成(南洋理工大学),尹楠(HKUST),王一帆(对外经贸),袁境阳(北京大学),琚玮(四川大学),张铭(北京大学,通讯作者)。

首个金融多模态评估数据集 FinMME

论文名:FinMME: A Financial Multi-Modal Evaluation Dataset

为应对金融领域多模态大模型评估的迫切需求,并提供高质量的多模态推理验证数据集。

北京大学 Dlib 实验室联合香港科技大学等重磅推出了首个大规模、高质量的金融多模态评估数据集 FinMME。

该数据集包含超过 11,200 个金融研究样本,覆盖 18 个核心金融领域和 10 种主要图表类型,并引入独创的 FinScore 评估系统。

实验结果表明,即便是顶尖模型如 GPT-4o 在 FinMME 上也面临显著挑战,凸显了其在衡量金融多模态理解与推理能力方面的深度与价值。

论文作者包含罗钧宇(北京大学,导师为张铭教授),寇智卓(HKUST),杨礼铭(北京大学),罗霄(UCLA),黄进晟(北京大学),肖之屏(华盛顿大学),彭靖姝(HKUST),刘程中(HKUST),吉嘉铭(HKUST),刘譞哲(北京大学),韩斯睿(HKUST),张铭(北京大学,通讯作者),郭毅可(HKUST)。

大语言模型中的数学推理增强方法

该论文涉及大语言模型中的数学推理增强方法。思维链(CoT)提示已成为激发大语言模型(LLM)推理能力的核心方法,但其生成的推理步骤中存在难以检测的「幻觉」。

现有的消除大语言模型幻觉的方法如过程奖励模型(Process Reward Model)或自一致性校验如同黑箱操作,难以提供可验证的证据,制约了纠正幻觉的能力。

论文提出一种创新的 Safe 验证框架。区别于传统模糊评分机制,Safe 创新性地证明验证定理的正确性,从根本上识别并消除幻觉。实验表明,本论文提出的 Safe 验证框架在多个数学模型和数据集上实现显著性能提升,实现神经符号系统在数学推理中的有机融合。

本研究回归了形式数学语言的初衷——为人类易错的证明过程提供坚实保障。Safe 框架为数学教育、代码生成等高风险领域提供了可验证的推理解决方案。

该论文第一作者为数据科学与工程所博士生刘成武(北京大学,导师为张铭教授),合作者包括袁野(北京大学)、尹伊淳(华为诺亚方舟实验室)、徐妍(华为诺亚方舟实验室)、许鑫(香港科技大学)、陈造宇(香港理工大学)、尚利峰(华为诺亚方舟实验室)、刘群(华为诺亚方舟实验室)、张铭(北京大学,通讯作者)。

基于大语言模型的交通流量预测方法

论文名: Embracing Large Language Models in Traffic Flow Forecasting

交通流量预测旨在基于历史交通状况和路网结构,预测未来交通流量,这是智能交通系统中的关键问题。

现有方法主要聚焦于捕捉和利用时空依赖性来进行流量预测,尽管取得了一定进展,但在面对测试时交通条件变化时表现不足。

针对这一挑战,本文提出了一种基于大语言模型(LLM)的新方法——LEAF (Large Language Model Enhanced Traffic Flow Predictor)。

与以往工作主要使用 LLM 的生成能力来直接生成未来交通流量序列不同,LEAF 使用 LLM 的判别能力。

具体来说,LEAF 采用双分支结构,分别通过图结构和超图结构捕捉不同的时空关系。两个分支在预训练阶段独立训练,并在测试时生成不同的预测结果。

随后,利用大语言模型从这些预测中选择最有可能的结果,并通过排序损失函数作为学习目标来增强两个分支的预测能力。在多个数据集上的广泛实验验证了 LEAF 的有效性,证明其在流量预测任务中能够更好地适应测试环境变化。

该论文第一作者为数据科学与工程所博士生赵禹昇(北京大学,导师为张铭教授),合作者包括罗霄(加州大学洛杉矶分校)、温浩珉(卡耐基梅隆大学)、肖之屏(华盛顿大学)、琚玮(四川大学),张铭(北京大学,通讯作者)。

作者介绍

袁境阳

北京大学计算机学院研究生,导师为张铭教授。

主要研究方向是高效大语言模型和稀疏注意力机制,曾获北京市优秀毕业生、北京大学优秀毕业生等称号。

罗钧宇

北京大学计算机学院博士生,导师为张铭教授。

他的研究方向关注于高效的 LLM、LLM 后训练、自适应学习等。

在 ICML,CVPR,ACL,TPAMI 等顶级刊物上以第一作者发表多篇文章。

赵禹昇

北京大学计算机学院研究生,导师为张铭教授。

研究方向包括图神经网络、时空预测、多模态等,关注测试数据的分布偏移问题。

刘成武

北京大学计算机学院数据科学与工程所博士生,导师是 DLIB 实验室的张铭教授。

他的研究方向是自然语言处理、大语言模型的数学推理和自动定理证明。

他在北京大学外国语学院获得了文学学士学位,并修读获得了信息科学技术学院的计算机科学与技术双学位。

张铭

北京大学计算机学院二级教授,博士生导师,北大 - 安克大模型算法与应用联合实验室主任。2021 年 CCF 杰出教育奖获得者。

张铭教授本硕博都毕业于北京大学计算机系,长期致力于机器学习、图神经网络、知识图谱、文本挖掘、语言模型、推荐系统、教育大数据、科学智能等相关研究。

先后主持国家重点研发计划课题、国家自然科学基金等前沿项目,发表科研论文 300 多篇,谷歌学术被引用 21800 余次。合作提出的 LINE 模型是图机器学习领域著名的的基准模型,目前单篇被引用 6700 余次。

获得了机器学习顶级会议 ICML 2014 唯一的最佳论文奖,以及 WWW 2016 最佳论文提名。

在近期利用率仅为 20% 左右的几大顶会中,张铭教授的课题组的中概率都在 50% 以上。

其中,在 ICML 2025 中了 4 篇论文。

AAAI 2025 也是 5 篇上榜。

还有 ICLR 1 篇,KDD 1 篇,NAACL 1 篇主会 2 篇 Finding。

参考资料:

luo-junyu.github.io 

pkudlib.github.io/

mp.weixin.qq.com/s/nvjSyUBR4…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

NSA ACL 2025 长文本处理 算力效率 北京大学 DeepSeek
相关文章