快科技资讯 03月07日 18:38
老显卡也能用!美团开源首发INT8无损满血版DeepSeek R1
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

美团技术团队成功对DeepSeek R1模型进行了INT8精度量化,解决了该模型在老型号GPU上的部署难题。原本DeepSeek R1的FP8数据格式限制了其在A100等GPU上的应用,而反量化为BF16又会导致显存需求和推理吞吐下降。通过INT8量化,美团不仅使DeepSeek R1能够部署在更多型号的GPU上,还实现了50%的吞吐提升,有效降低了推理成本。该量化代码已在开源LLM推理框架SGLang上发布,量化模型也已登陆Hugging Face社区。

🚀 DeepSeek R1模型原本采用FP8数据格式,限制了其在A100等老型号GPU上的部署,仅能被英伟达新型GPU支持。

💡 美团技术团队通过INT8精度量化,成功解锁了DeepSeek R1模型的芯片限制,使其能够部署到A100等更多型号的GPU上,扩大了应用范围。

📈 相比于将FP8权重反量化为BF16权重,INT8量化方案实现了50%的吞吐提升,显著降低了推理成本,提高了效率。

🤝 美团已将INT8量化代码发布在开源LLM推理框架SGLang上,并将量化模型发布到Hugging Face社区,方便开发者使用和进一步研究。

快科技3月7日消息,日前美团技术团队宣布对DeepSeek R1进行了INT8精度量化,让DeepSeek R1可以在如A100等老型号GPU上进行部署。

据介绍,DeepSeek R1发布以后不少企业和个人都在尝试部署满血版本,但原生版本的模型权重为FP8数据格式,对GPU芯片类型有严格限制,仅能被英伟达新型GPU支持(如Ada、Hopper架构芯片),其他型号GPU(如A100)无法直接部署。

虽然可以将FP8权重反量化为BF16权重后,在A100等GPU上进行推理,但是这对显存的要求提升了一倍,推理吞吐也会下降。

为此美团搜索和推荐平台部对DeepSeek R1模型进行了INT8精度量化尝试,发现使用INT8量化后模型精度基本无损。

基于INT8量化,DeepSeek R1模型解锁了芯片限制,可以部署到A100等其他型号GPU;并且相比BF16实现了50%的吞吐提升,进一步降低了推理成本。

目前量化代码已经发布在了开源LLM推理框架SGLang上,量化模型已经发布到了Hugging Face社区:

https://huggingface.co/meituan/DeepSeek-R1-Block-INT8

https://huggingface.co/meituan/DeepSeek-R1-Channel-INT8

对具体过程感兴趣的,可以查看官方技术报告

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek R1 INT8量化 美团技术 GPU部署 推理优化
相关文章