2024-12-27 17:59 湖北
DeepSeek V3 正式发布,模型与技术报告全开源,非常牛,又在大模型领域掀起了一股热议,概率为2句话:
便宜,正式训练成本仅要557万美元(2000张H800),而GPT-4o预估一亿美金
编程能力超过 Claude Sonnet 3.5
根据多个基准测试,DeepSeek v3 在代码方面甚至优于 Claude Sonnet 3.5
那么671B的DeepSeek V3如何本地运行尼,由于DeepSeek的框架原生采用 FP8 训练,因此仅提供 FP8 权重,预估仅700GB+显存便可轻松运行。
当然也可以转换到BF16,在半精度下,需1400GB+
量化到int4时需要300GB+
半精度 236B的DeepSeek V2,占用 490G 显存,需要 7张 80G A100
https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。