热点
"稀疏注意力" 相关文章
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
智源社区 2025-06-11T09:47:54.000000Z
科学家提出视频扩散模型加速方法,在H100和A100 均实现一倍以上端到端加速效果
MIT 科技评论 - 本周热榜 2025-06-01T16:01:55.000000Z
分论坛预告 | 强化学习与深度思考
智源社区 2025-05-29T08:12:52.000000Z
RWKV-X Combines Sparse Attention and Recurrent Memory to Enable Efficient 1M-Token Decoding with Linear Complexity
MarkTechPost@AI 2025-05-05T18:10:34.000000Z
Exploring the Sparse Frontier: How Researchers from Edinburgh, Cohere, and Meta Are Rethinking Attention Mechanisms for Long-Context LLMs
MarkTechPost@AI 2025-04-30T19:50:39.000000Z
Microsoft Research Introduces MMInference to Accelerate Pre-filling for Long-Context Vision-Language Models
MarkTechPost@AI 2025-04-25T06:30:37.000000Z
盖过马斯克Grok3锋芒!DeepSeek又放大招:基于硬件对齐的 NSA, 可直接端到端训练
一支烟花AI 2025-04-09T09:54:06.000000Z
Deepseek NSA可能是 Transfermer 的新解法
一支烟花AI 2025-04-09T09:54:06.000000Z
标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等 | 开源
量子位 2025-03-03T09:54:28.000000Z
大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起
rss.maitayade.online 2025-03-02T17:04:28.000000Z
今天的两个极端
信息平权 2025-02-23T16:07:45.000000Z
马斯克的思维方式,和AI的进化方向一摸一样 之前有朋友提了一个很有洞察的问题,“马斯克和普通人的区别在哪,为什么他能同时管理那么多家公司,直接向他汇报的...
即刻圈子-读书会 2025-02-22T06:11:16.000000Z
DeepSeek最新论文解读:NSA,物美价廉的超长上下文方案
Founder Park 2025-02-21T16:15:40.000000Z
DeepSeek最新论文解读:NSA,物美价廉的超长上下文方案
智源社区 2025-02-21T15:34:09.000000Z
哇塞,拯救长上下文的新注意力架构NSA, DeepSeek告诉你,什么是高质量的降本增效
FishAI官方 2025-02-19T23:38:09.000000Z
盖过马斯克Grok3锋芒!DeepSeek又放大招:基于硬件对齐的 NSA, 可直接端到端训练
一支烟花AI 2025-02-19T23:29:38.000000Z
DeepSeek新论文再次引发热议,它说了什么?
虎嗅 2025-02-19T08:18:29.000000Z
DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目
快科技资讯 2025-02-19T04:15:39.000000Z
中国大模型“卷技术”!DeepSeek前脚发布NSA,Kimi立刻跟进MoBA
华尔街见闻 2025-02-19T03:28:22.000000Z
在马斯克和奥特曼比谁喊的响的时候,DeepSeek低调发论文,梁文锋亲自参与
36氪 - 科技频道 2025-02-19T02:28:55.000000Z