Cnbeta 01月29日
华尔街深度研究:DeepSeek是AI末日吗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek新一代开源模型以低成本和高性能引发关注,市场传言其仅用500万美元复制OpenAI。伯恩斯坦投行分析指出,这实为误读,500万美元仅为GPU租赁成本,未包含研发等其他投入。尽管DeepSeek效率提升显著,但并非颠覆性突破,其效率提升幅度与AI模型成本年增长幅度相当。DeepSeek的V3模型采用混合专家架构和多项优化技术,大幅降低了训练成本。R1模型则通过强化学习和模型蒸馏提升了推理能力。伯恩斯坦认为,AI计算需求远未饱和,效率提升将刺激更多需求,对AI板块保持乐观。

💰DeepSeek的“500万美元复制OpenAI”说法是对V3模型训练成本的片面解读,仅为GPU租赁费用,未包含研发和数据等其他成本。

🚀DeepSeek V3模型采用混合专家架构(MoE),结合多头潜在注意力(MHLA)和FP8混合精度训练等技术,显著降低了训练所需的算力,训练成本仅为同规模开源模型的约9%。

🧠DeepSeek R1模型通过强化学习(RL)提升推理能力,并采用“模型蒸馏”策略,利用R1模型训练小模型,降低成本的同时,使小模型性能媲美OpenAI的o1-mini等模型。

📈 伯恩斯坦认为,即使DeepSeek实现了10倍的效率提升,也仅与AI模型成本的年增长幅度相当,AI计算需求远未触及天花板,效率提升将刺激更多需求,对AI板块保持乐观。

春节期间,DeepSeek新一代开源模型以惊人的低成本和高性能引发热议,在全球投资界引发剧震。市场上甚至出现了DeepSeek“仅用500万美元就复制OpenAI”的说法,认为这将给整个AI基础设施产业带来“末日”。

对此,华尔街知名投行伯恩斯坦在详细研究DeepSeek技术文档后发布报告称,这种市场恐慌情绪明显过度,DeepSeek用“500万美元复制OpenAI”是市场误读。

另外,该行认为,虽然DeepSeek的效率提升显著,但从技术角度看,并非奇迹。而且,即便DeepSeek确实实现了10倍的效率提升,这也仅相当于当前AI模型每年的成本增长幅度。

该行还表示,目前AI计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收,因此对AI板块保持乐观。

“500万美元复制OpenAI”是误读

对于“500万美元复制OpenAI”的说法,伯恩斯坦认为,实际上是对DeepSeek V3模型训练成本的片面解读,简单将GPU租用成本计算等同于了总投入:

这500万美元仅仅是基于每GPU小时2美元的租赁价格估算的V3模型训练成本,并未包括前期研发投入、数据成本以及其他相关费用。

技术创新:效率大幅提升但非颠覆性突破

接着,伯恩斯坦在报告中详细分析了DeepSeek发布的两大模型V3、R1详细技术特点。

(1)V3模型的效率革命

该行表示,V3模型采用专家混合架构,用2048块NVIDIA H800 GPU、约270万GPU小时就达到了可与主流大模型媲美的性能。

具体而言,V3模型采用了混合专家(MoE)架构,这一架构本身就旨在降低训练和运行成本。在此基础上,V3还结合了多头潜在注意力(MHLA)技术,显著降低了缓存大小和内存使用。

同时,FP8混合精度训练的运用进一步优化了性能表现。这些技术的综合运用,使得V3模型在训练时仅需同等规模开源模型约9%的算力,便能达到甚至超越其性能。

例如,V3预训练仅需约270万GPU小时,而同样规模的开源LLaMA模型则需要约3000万GPU小时。

MoE架构: 每次只激活部分参数,减少计算量。

MHLA技术: 降低内存占用,提升效率。

FP8混合精度训练: 在保证性能的同时,进一步提升计算效率。


谈及V3模型带来的效率提升,伯恩斯坦认为,与业界3-7倍的常见效率提升相比并非颠覆性突破:

MoE架构的重点是显著降低训练和运行的成本,因为在任何一次只有一部分参数集是活动的(例如,当训练V3时,只有671B个参数中的37B为任何一个令牌更新,而密集模型中所有参数都被更新)。

对其他MoE比较的调查表明,典型的效率是3-7倍,而类似大小的密度模型具有类似的性能;

V3看起来甚至比这个更好(10倍以上),可能考虑到该公司在模型中带来的其他一些创新,但认为这是完全革命性的想法似乎有点夸张,并且不值得在过去几天里席卷twitter世界的歇斯底里。

(2)R1模型的推理能力与“蒸馏”策略

DeepSeek的R1模型则在V3的基础上,通过强化学习(RL)等创新技术,显著提升了推理能力,使其能够与OpenAI的o1模型相媲美。


值得一提的是,DeepSeek还采用了“模型蒸馏”策略,利用R1模型作为“教师”,生成数据来微调更小的模型,这些小模型在性能上可以与OpenAI的o1-mini等竞争模型相媲美。这种策略不仅降低了成本,也为AI技术的普及提供了新的思路。

强化学习(RL): 提升模型推理能力。

模型蒸馏: 利用大模型训练小模型,降低成本。

对AI板块保持乐观

伯恩斯坦认为,即便DeepSeek确实实现了10倍的效率提升,这也仅相当于当前AI模型每年的成本增长幅度。

事实上,在“模型规模定律”不断推动成本上升的背景下,像MoE、模型蒸馏、混合精度计算等创新对AI发展至关重要。

根据杰文斯悖论,效率提升通常会带来更大的需求,而非削减开支。该行认为,目前AI计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收。

基于以上分析,伯恩斯坦对AI板块保持乐观。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek AI模型 混合专家架构 模型蒸馏 效率提升
相关文章