PaperAgent 02月18日
14G跑满血DeepSeek-R1,清华最新开源力作ktransformers
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

清华开源框架KTransformers最新研究表明,DeepSeek-R1模型仅需14G GPU(如一台24G的4090)即可本地运行,DRAM需求约为382G,生成速度达到13.69 tokens/s。这一突破主要得益于CPU/GPU混合推理策略,将DeepSeek的MLA操作符计算密集型任务卸载至GPU,显著提升性能。英特尔AMX优化内核也发挥重要作用,其运行速度远超现有实现。该方案选择英特尔CPU是因为其对AMX指令的独特支持,从而实现更优性能,大大降低了R1推理的门槛。

🚀 **GPU需求大幅降低**: KTransformers框架使DeepSeek-R1在本地运行的GPU需求降至14G,一台24G的4090即可满足,极大降低了推理门槛。

🧠 **CPU/GPU混合推理**: 采用CPU/GPU混合推理策略,将计算密集型的MLA操作符卸载到GPU,专家计算卸载到CPU,与DeepSeek架构完美契合,实现性能最佳化。

💻 **英特尔AMX优化**: 英特尔AMX优化内核经过精心调优,运行速度远超llama.cpp实现,显著提升了推理效率,是选择英特尔CPU的关键原因。

🛠️ **KVCache卸载**: 不同于传统的基于层的或KVCache卸载,Ktransformers 针对Deepseek的架构进行了优化,实现了最佳效率。

2025-02-17 11:41 河南

671B的DeepSeek-R1到底需要多少GPU可以本地跑起来?清华开源框架KTransformers给出最新答案,只需要14G(一台24G的4090),DRAM大概要382G,生成速度要13.69 tokens/s,R1推理的门槛被彻底打下来了。

https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-R1 KTransformers CPU/GPU混合推理 英特尔AMX 本地运行
相关文章