2025-02-17 11:41 河南
671B的DeepSeek-R1到底需要多少GPU可以本地跑起来?清华开源框架KTransformers给出最新答案,只需要14G(一台24G的4090),DRAM大概要382G,生成速度要13.69 tokens/s,R1推理的门槛被彻底打下来了。
为什么使用CPU/GPU混合推理?DeepSeek的MLA操作符计算密集度很高。虽然完全在CPU上运行是可行的,但将繁重的计算任务卸载到GPU上可以带来巨大的性能提升。
性能提升来自哪里?
专家卸载:与传统的基于层的或KVCache卸载(如llama.cpp中所见)不同,将专家计算卸载到CPU,而将MLA/KVCache卸载到GPU,这与DeepSeek的架构完美契合,实现了最佳效率。
英特尔AMX优化——AMX加速内核经过精心调优,运行速度比现有的llama.cpp实现快数倍。
为什么选择英特尔CPU?英特尔是目前唯一支持类似AMX指令的CPU厂商,与仅支持AVX的替代方案相比,它能提供显著更好的性能。
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
推荐阅读
• 动手设计AI Agents:Coze版(编排、记忆、插件、workflow、协作)
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。