原创 算力百科 J 2025-02-26 06:00 贵州
关于DeepSeek 10个常识谬误分享!
1.满血板定义和划分
目前市面上,只要是671B参数的DeepSeek都叫满血版
满血版又分:
原生满血版(FP8 数据精度,显存占用 671G )
转译满血版 (BF16或者FP16数据精度,显存需求未量化1342G)
量化满血版(INT8(Q8) 显存 671G、INT4(Q4)显存335G、Q2、Q1数据精度)
三种划分方法和命名,在2月9日,由“算力百科"组织线下沙龙,由几名行业专家首次提出并论证,已经获得同行广泛认可。
默认官方原生满血版就是智商最高的DeepSeek版本。
厂商宣传时,都只会宣传满血版,主意辨别。
2.三款支持FP8的国产AI芯片
算力百科已经跟相关厂商完成确认,目前公开市场有三款国产AI芯片支持FP8,算能SC1x、瀚博VA1x、摩尔线程S5x。
某头部AI芯片大厂,给客户推广DeepSeek一体机,被问到是否支持Fp8时,说的原话是“所有国产AI芯片都不支持Fp8”,用来弱化自家国产AI芯片不支持FP8的短板。
此类人还有一些媒体人,难道真的不懂还是别有用心?国产AI芯已经很难啦,做的性能好,老美制裁,做的不好又卖不出去,现在又被同行抹黑,我们呼吁,请停止抹黑国产AI芯。
3.模型参数越大,智商越高
实践证明DeepSeek模型参数量跟智商成正比,参数越大,智商越高。
咱把671B相当于博士生,70B相当于本科生,32B相当于专科生,并不是所有的岗位都需要博士生,根据需求选择最好的即可。
但是多数情况,这个岗位用过了博士生都不再愿意用本科更何况是专科生。
4. 671B各个版本智商,比70B和32B智商都高。
我们内部测试结果,671B Q4量化的效果比蒸馏的70B确实是好,相当于不同专业的博士生,确实比本科生智商更优秀。
测试方法:把相同的问题,问不同的模型,查看返回结果,跟官方chat.DeepSeek.com返回答案对比,看相似程度。
问题比如: 7.11和7.9哪个大?
5.DeepSeek 开源openinfra 是绑定了CuDA生态?!
开源的目的是让更多的人能基于DS的工作,进一步创新或者移植,并不是非要绑定CuDA生态,也许某一天国产算力生态成熟了,会被基某公司采用。
6.Deepseek模型更新太快,对国产AI芯片不是好事。
DS每推出一代模型,国产AI芯片就需要适配和优化,投入大量人力物力,当这一代刚适配优化完,还没收回成本,下一代又发布了,如此快速迭代,让AI芯片厂商吃不消,小的AI芯片团队容易掉队,所以说软件创新太快,不一定是好事,任何事情发展都需要一个度。
7.国人对大模型的认知两个契机和时间点
22年底朋友圈里GPT火了,大家知道大模型,狼要来了。
24年底朋友圈Deepseek火了,大模型应用,狼真的来了。
使用Deepseek,参与全球创新,是大势所趋,是历史的必然。与智能手机一定取代功能机一样。
8.基础大模型公司一定会自研芯片,如果不自研,只能说明不够大。
基础大模型公司一定会自研芯片(投资、孵化、收购),因为需求确定,并且采购量巨大,自研的一定比单独采购第三方经济。
9.英伟达会长期是训练芯片的霸主
英伟达投资了全球绝大多数独角兽基模公司,基模公司想当长的时间内选择成熟的CuDA生态,可以快速出成果,跟进全球创新,这是必然选择。
一个基本事实,目前全球领先的基础大模型还没有一个是脱离CuDA训练成功的。
但是Gork3的发布说明堆算力炼丹模式已经走到头,边际收益已经低的令人发指了,训练霸主也无能为力。
10.我们应该做正确的事
赚自己认知内的米,20年前的光伏产业,10年前的新能源产业,现在的算力大模型产业,都是产业发展的必然。
任何繁荣产业的初期,都会有很多产业机会,很高兴参与新时代产业发展中,每个人都利用自身的资源和优势,找到自己的产业定位,赚到米。
《实测:Deepseek类大模型确认可泄密,企业需加强员工使用管理,欢迎复测!》
《DeepSeekR1 671B原生满血版、转译满血版、量化满血版,渠道招募,9.8w 起》