稀疏注意力_Fishai

热点

"稀疏注意力" 相关文章

0.5B以小搏大拿下端侧模型新SOTA：4090可跑，长文本处理5倍常规加速丨清华&面壁开源

智源社区 2025-06-11T09:47:54.000000Z

科学家提出视频扩散模型加速方法，在H100和A100 均实现一倍以上端到端加速效果

MIT 科技评论 - 本周热榜 2025-06-01T16:01:55.000000Z

分论坛预告 | 强化学习与深度思考

智源社区 2025-05-29T08:12:52.000000Z

RWKV-X Combines Sparse Attention and Recurrent Memory to Enable Efficient 1M-Token Decoding with Linear Complexity

MarkTechPost@AI 2025-05-05T18:10:34.000000Z

Exploring the Sparse Frontier: How Researchers from Edinburgh, Cohere, and Meta Are Rethinking Attention Mechanisms for Long-Context LLMs

MarkTechPost@AI 2025-04-30T19:50:39.000000Z

Microsoft Research Introduces MMInference to Accelerate Pre-filling for Long-Context Vision-Language Models

MarkTechPost@AI 2025-04-25T06:30:37.000000Z

盖过马斯克Grok3锋芒！DeepSeek又放大招:基于硬件对齐的 NSA, 可直接端到端训练

一支烟花AI 2025-04-09T09:54:06.000000Z

Deepseek NSA可能是 Transfermer 的新解法

一支烟花AI 2025-04-09T09:54:06.000000Z

标点符号成大模型训练神器！KV缓存狂减一半，可处理400万Tokens长序列，来自华为港大等 | 开源

量子位 2025-03-03T09:54:28.000000Z

大模型 “注意力简史”：与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起

rss.maitayade.online 2025-03-02T17:04:28.000000Z

今天的两个极端

信息平权 2025-02-23T16:07:45.000000Z

马斯克的思维方式，和AI的进化方向一摸一样之前有朋友提了一个很有洞察的问题，“马斯克和普通人的区别在哪，为什么他能同时管理那么多家公司，直接向他汇报的...

即刻圈子-读书会 2025-02-22T06:11:16.000000Z

DeepSeek最新论文解读：NSA，物美价廉的超长上下文方案

Founder Park 2025-02-21T16:15:40.000000Z

DeepSeek最新论文解读：NSA，物美价廉的超长上下文方案

智源社区 2025-02-21T15:34:09.000000Z

哇塞，拯救长上下文的新注意力架构NSA， DeepSeek告诉你，什么是高质量的降本增效

FishAI官方 2025-02-19T23:38:09.000000Z

盖过马斯克Grok3锋芒！DeepSeek又放大招:基于硬件对齐的 NSA, 可直接端到端训练

一支烟花AI 2025-02-19T23:29:38.000000Z

DeepSeek新论文再次引发热议，它说了什么？

虎嗅 2025-02-19T08:18:29.000000Z

DeepSeek发布最新NSA技术论文！创始人梁文锋参与引人注目

快科技资讯 2025-02-19T04:15:39.000000Z

中国大模型“卷技术”！DeepSeek前脚发布NSA，Kimi立刻跟进MoBA

华尔街见闻 2025-02-19T03:28:22.000000Z

在马斯克和奥特曼比谁喊的响的时候，DeepSeek低调发论文，梁文锋亲自参与

36氪 - 科技频道 2025-02-19T02:28:55.000000Z

Copyright © 2019 FISHAI.All Rights Reserved