快科技资讯 01月27日
让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek在AI领域的影响力堪比“六代机”,其成功关键在于技术创新和开源策略。DeepSeek-V3和DeepSeek-R1两款模型性能比肩OpenAI 4o和o1,但成本仅为其十分之一。DeepSeek通过自研MLA和MOE架构显著降低模型训练成本,MLA架构压缩KV Cache大小,配合FFN层改造实现稀疏MoE层。同时,DeepSeek解决了超大稀疏MoE模型性能难题,并利用专家网络稀疏激活设计,降低GPU通信开销。开源策略让更多AI团队能基于先进低成本模型开发应用。图灵奖得主杨立昆认为DeepSeek的成功并非威胁,而是开源AI的价值体现。

🚀DeepSeek-V3和DeepSeek-R1模型性能强大,可与OpenAI 4o和o1模型相媲美,但训练成本仅为其十分之一,体现了极高的性价比。

💡DeepSeek自研MLA架构通过压缩KV Cache大小,并结合FFN层改造,实现了非常大的稀疏MoE层,这是其训练成本降低的关键因素。同时,通过稀疏激活设计,有效降低了GPU之间的通信开销。

🌐DeepSeek选择开源其模型技术,使得其他AI团队能够基于先进且低成本的模型进行开发,加速了AI技术的普及和应用。图灵奖得主杨立昆认为,这体现了开源模型的巨大价值,而非对其他国家的威胁。

快科技1月17日消息,在AI领域,DeepSeek带来的影响力,一点也不亚于“六代机”。那么,DeepSeek究竟厉害在哪里?

据新浪科技报道,今日,中国工程院院士、清华大学计算机系教授郑纬民指出了DeepSeek其成功出圈的关键所在。

目前,业界对于DeepSeek的喜爱与赞美,主要集中在三个方面。

第一,在技术层面,DeepSeek背后的DeepSeek-V3及公司新近推出的DeepSeek-R1两款模型,分别实现了比肩OpenAI 4o和o1模型的能力。

第二,DeepSeek研发的这两款模型成本更低,仅为OpenAI 4o和o1模型的十分之一左右。

第三,DeepSeek把这一两大模型的技术都开源了,这让更多的AI团队,能够基于最先进同时成本最低的模型,开发更多的AI原生应用。

DeepSeek是如何实现模型成本的降低的呢?郑纬民指出,“DeepSeek自研的MLA架构和DeepSeek MOE架构,为其自身的模型训练成本下降,起到了关键作用。”

他指出,“MLA主要通过改造注意力算子压缩了KV Cache大小,实现了在同样容量下可以存储更多的KV Cache,该架构和DeepSeek-V3模型中FFN 层的改造相配合,实现了一个非常大的稀疏MoE 层,这成为DeepSeek训练成本低最关键的原因。”

据了解,KV Cache是一种优化技术,常被用于存储人工智能模型运行时产生的token的键值对(即key- value数值),以提高计算效率。

具体而言,在模型运算过程中,KV cache会在模型运算过程中充当一个内存库的角色,以存储模型之前处理过的token键值,通过模型运算计算出注意力分数,有效控制被存储token的输入输出,通过“以存换算”避免了多数大模型运算每次都是从第一个token开始运算的重复计算,提升了算力使用效率。

此外,据郑纬民透露,DeepSeek还解决了“非常大同时非常稀疏的MoE模型”使用的性能难题,而这也成了“DeepSeek训练成本低最关键的原因”。

“DeepSeek比较厉害的是训练MoE的能力,成为公开MoE模型训练中第一个能训练成功这么大MoE的企业。”郑纬民说

此外,DeepSeek还充分利用专家网络被稀疏激活的设计,限制了每个token被发送往GPU集群节点(node)的数量,这使得GPU之间通信开销稳定在较低的水位。

早先,图灵奖得主、主导Meta AI研究的首席科学家杨立昆(Yann LeCun)认为,DeepSeek成功的最大收获并非中国竞争对其他国家带来更大威胁,而是AI开源的价值使任何人都能受益。

“对那些看到DeepSeek表现并认为‘中国在AI领域正超越美国’的人而言,你的解读错了”,杨立昆在Threads写道,“正确解读应是‘开源模型正超越专有模型’”。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek 开源模型 MLA架构 MoE模型 AI技术
相关文章