Cnbeta 03月26日 10:01
DeepSeek本地模型显卡横评 显存不够算力都白搭
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文通过RTX 5090 D、RTX 5080、RTX 5070 Ti和RTX 5070四款显卡,实测DeepSeek大语言模型本地部署的性能差异。测试结果显示,显存大小对性能的影响远大于算力,显存不足会导致性能瓶颈。文章还提供了模型显存需求的换算公式,并强调了思考时间与问题开放性的关系,为用户选择合适的显卡和模型提供了参考。

🧠 测试平台采用RTX 5090 D、RTX 5080、RTX 5070 Ti和RTX 5070四款显卡,搭配AMD R7 9800X3D处理器和48GB DDR5 6000MHz内存,使用LM Studio进行测试,不使用加速框架以考察显卡真实算力。

💡 测试结果表明,显存大小对DeepSeek大语言模型的性能至关重要。当显存不足时,即使拥有强大的算力,性能也会受到限制。例如,RTX 5080因显存不足导致性能大幅下降。

📝 文章提供了模型对显存需求的换算公式:(x)B÷2×1.15=显存,帮助用户根据模型大小选择合适的显卡。例如,32B模型大约需要18.4GB显存,8B模型大约需要4.6GB显存。

⏱️ 思考时间与GPU并非绝对相关,而是与问题的开放性有关。过于开放的问题可能导致更长的思考时间,影响测试结果。

DeepSeek本地化部署是当下热门的应用方式,它除了可以避免服务器繁忙之外,本地化运行还能够极大程度保护用户的隐私。目前DeepSeek有众多版本,其中模型容量差距可达数十倍,到底该如何选择适合自己硬件的版本来部署,一直是用户比较头疼的问题。

今天我们就使用RTX 5090 D、RTX 5080、RTX 5070 Ti以及RTX 5070,共4张RTX 50系显卡来实测一下,不同显卡之间的性能差距。

首先介绍一下测试平台,除了本次测试的4张显卡,处理器选择AMD R7 9800X3D,内存为48GB DDR5 6000MHz。

关于本地部署的步骤这里不再过多讲解, 有兴趣的用户可以翻看我们此前的文章。

测试使用LM Studio,无加速框架进行对比,完全凭借显卡自身算力。毕竟不同加速框架对不同厂商的显卡优化不同,测试变量太大。

这里我们首先选择【DeepSeek R1 Distill Qwen 32B】模型。

将GPU卸载拉满,这意味着DeepSeek模型将完全由GPU进行计算,其他参数默认即可。由于AI模型每次回答都会有所区别,这里设置3个问题,取平均值。

另外需要注意的是,我们设置的问题本身框定了范围,让AI在思考回答时不会过于发散。如果问“什么是哲学”这类无范围的问题,每次回答的结果将无法量化。

在32B模型中,可以看到RTX 5090 D的tok/sec还是很快的,毕竟作为本代旗舰产品,32GB大显存本就适合AI训练。

但在RTX 5080进行测试时便出现了问题,可以看到RTX 5080在回答问题时,思考时间达到了348秒,也就是将近6分钟。

这里需要提及一下,不同模型对于显存需求的换算大致有个公式,即:

(32)B÷2×1.15=显存

所以32B模型需要的最低显存,为18.4GB左右,这已经超出了RTX 5080的16GB显存。而这溢出的2GB显存,则由内存补足。

但对于模型来说,爆显存之后不管“外借”多少内存,都将按照最慢的速度运算。

实测同事的RTX 2060,在运行32B模型时,即便“外借”的内存更多,但思考时间同样为5分钟左右。

爆显存对本次测试的意义就不大了,所以我们更换更小的8B模型,让后续型号都能够完全用显存完成测试。

根据上面的公式,这里可以推测出8B模型大约仅需要4.6GB显存,即可满足运算需求。

在更换模型后,所有显卡均可进行正常测试,成绩汇总如上。

从结果来看,tok/sec与显卡显存及算力有较大关系,并且呈现出应有的性能递进关系。而first token和思考时间没有太大规律可循,下面每张显卡的tok/sec成绩我们进行了柱状图汇总,方便大家看的更清晰。

对于大显存高算力的RTX 5090 D毫无意外拔得头筹,而显存相同RTX 5080及RTX 5070 Ti差距不大。根据不同显卡之间的AI算力来看:

RTX 5090 D(AI TOPS:2375);

RTX 5080(AI TOPS:1801);

RTX 5070 Ti(AI TOPS:1406);

RTX 5070(AI TOPS:988)

至少DeepSeek大语言模型对于AI算力的要求并不是最重要的,而是显存。只要显存足够大,在推理运算时即有压倒性的优势。

最后总结一下本次DeepSeek测试的要点,供大家快速记忆:

1. DeepSeek大语言模型对GPU的需求:显存>算力

2. 模型对显存要求的换算公式(x)B÷2×1.15=显存

3. 当显存无法满足模型最低需求,多少AI算力都无济于事

4. 思考时间与GPU并无绝对关系,而是问题的开放性

本次测试选择的LM Studio,目的就是为了使用显卡未经加速的真实算力。不过现在有很多针对不同架构的加速框架,甚至笔记本也能跑满血大模型,大家在自己使用时不妨自行尝试。

(9647699)

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek RTX 50系显卡 本地部署 显存
相关文章