热点
关于我们
xx
xx
"
InfiniteHiP
" 相关文章
可降低GPU内存的推理框架面世:韩国团队通过卸载键值缓存节约英伟达GPU内存,实现18.95倍注意力解码加速
DeepTech深科技
2025-02-28T16:20:57.000000Z
KAIST and DeepAuto AI Researchers Propose InfiniteHiP: A Game-Changing Long-Context LLM Framework for 3M-Token Inference on a Single GPU
MarkTechPost@AI
2025-02-16T19:46:29.000000Z