国产之光 DeepSeek 把 AI 大佬全炸出来了，对 AI 行业竞争格局有何影响？

物联网技术DeepSeek新版模型正式发布，技术大佬们都转疯了！延续便宜大碗特点的基础之上，DeepSeek V3发布即完全开源，直接用了53页论文把训练细节和盘托出的那种。怎么说呢，QLoRA一作的一个词评价就是：优雅。具体来说，DeepSeek V3是一个参数量为671B的MoE模型，激活37B，在14.8T高质量token上进行了预训练。在多项测评上，DeepSeek V3达到了开源SOTA，超越Llama 3.1 405B，能和GPT-4o、Claude 3.5 Sonnet等TOP模型正面掰掰手腕——而其价格比Claude 3.5 Haiku还便宜，仅为Claude 3.5 Sonnet的9%。更重要的是，大家伙儿还第一时间在论文中发现了关键细节：DeepSeek V3整个训练过程仅用了不到280万个GPU小时，相比之下，Llama 3 405B的训练时长是3080万GPU小时（p.s． GPU型号也不同）。直观地从钱上来对比就是，训练671B的DeepSeek V3的成本是557.6万美元（约合4070万人民币），而只是训练一个7B的Llama 2，就要花费76万美元（约合555万人民币）。OpenAI创始成员Karpathy对此赞道：Meta科学家田渊栋也惊叹DeepSeek V3的训练看上去是“黑科技”：全网热烈实测中先来看官方说法，新模型这次主要有以下几个特点：首先从模型能力来看，其评测跑分不仅超越了Qwen2.5-72B和Llama-3.1-405B等开源模型，甚至还和一些顶尖闭源模型（如GPT-4o以及Claude-3.5-Sonnet）不分伯仲。从实际响应来看，其生成速度提升了3倍，每秒生成60个tokens。在又快又好的同时，DeepSeek V3的API价格也被打下来了。单论价格，正如一开始提到的，它几乎是Claude 3.5 Sonnet的1/53（后者每百万输入3美元、输出15美元）。而如果要平衡性能和成本，它成了DeepSeek官方绘图中唯一闯进“最佳性价比”三角区的模型。对了，DeepSeek这次还搞了一个45天优惠价格体验期，也就是在2025年2月8日之前，所有用户使用DeepSeek V3 API的价格分别下降了80%（输入命中）、50%（输入未命中），75%（输出）。国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签