知乎全站热榜 01月25日
国产之光 DeepSeek 把 AI 大佬全炸出来了,对 AI 行业竞争格局有何影响?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek V3正式发布,完全开源。它是参数量为671B的MoE模型,在多项测评上达到开源SOTA,价格低廉,训练成本低,生成速度快,API价格优惠并有体验期。

🌐DeepSeek V3是参数量为671B的MoE模型,激活37B,预训练数据丰富。

💯在多项测评中超越开源模型,与顶尖闭源模型不分伯仲。

🚀生成速度提升3倍,每秒生成60个tokens,API价格优惠。

🎉设有45天优惠价格体验期,价格大幅下降。

物联网技术DeepSeek新版模型正式发布,技术大佬们都转疯了!延续便宜大碗特点的基础之上,DeepSeek V3发布即完全开源,直接用了53页论文把训练细节和盘托出的那种。怎么说呢,QLoRA一作的一个词评价就是:优雅。具体来说,DeepSeek V3是一个参数量为671B的MoE模型,激活37B,在14.8T高质量token上进行了预训练。在多项测评上,DeepSeek V3达到了开源SOTA,超越Llama 3.1 405B,能和GPT-4o、Claude 3.5 Sonnet等TOP模型正面掰掰手腕——而其价格比Claude 3.5 Haiku还便宜,仅为Claude 3.5 Sonnet的9%。更重要的是,大家伙儿还第一时间在论文中发现了关键细节:DeepSeek V3整个训练过程仅用了不到280万个GPU小时,相比之下,Llama 3 405B的训练时长是3080万GPU小时(p.s. GPU型号也不同)。直观地从钱上来对比就是,训练671B的DeepSeek V3的成本是557.6万美元(约合4070万人民币),而只是训练一个7B的Llama 2,就要花费76万美元(约合555万人民币)。OpenAI创始成员Karpathy对此赞道:Meta科学家田渊栋也惊叹DeepSeek V3的训练看上去是“黑科技”:全网热烈实测中先来看官方说法,新模型这次主要有以下几个特点:首先从模型能力来看,其评测跑分不仅超越了Qwen2.5-72B和Llama-3.1-405B等开源模型,甚至还和一些顶尖闭源模型(如GPT-4o以及Claude-3.5-Sonnet)不分伯仲。从实际响应来看,其生成速度提升了3倍,每秒生成60个tokens。在又快又好的同时,DeepSeek V3的API价格也被打下来了。单论价格,正如一开始提到的,它几乎是Claude 3.5 Sonnet的1/53(后者每百万输入3美元、输出15美元)。而如果要平衡性能和成本,它成了DeepSeek官方绘图中唯一闯进“最佳性价比”三角区的模型。对了,DeepSeek这次还搞了一个45天优惠价格体验期,也就是在2025年2月8日之前,所有用户使用DeepSeek V3 API的价格分别下降了80%(输入命中)、50%(输入未命中),75%(输出)。国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek V3 物联网技术 开源模型 性价比高
相关文章