DeepSeek震撼硅谷，从数据到技术，Meta紧急组建多个小组研究复制

华尔街见闻 - 资讯 - undefined 01月27日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

中国AI公司DeepSeek发布的R1模型在专业大模型排名中表现亮眼，引发硅谷巨震。Meta公司迅速组建多个研究小组，深入研究DeepSeek的技术细节，包括其降低模型训练和运行成本的方法、使用的数据集以及模型属性。Meta希望通过研究DeepSeek的技术，在即将发布的Llama 4模型中实现技术突破。Meta高层对Llama的表现表示担忧，认为其在成本和性能上均面临DeepSeek的挑战。OpenAI研究员也指出，DeepSeek证明了可以用较少算力获得强大AI模型。

🚀DeepSeek R1模型在Arena大模型排名中位列第三，并在风格控制类模型中与OpenAI o1并列第一，显示出强大的技术实力。

📉Meta公司成立多个小组，重点研究DeepSeek如何降低大模型的训练和运行成本，以及其使用的数据集和模型属性，试图在Llama 4中实现技术突破。

🧐DeepSeek的技术论文中介绍的降本方法，如模型蒸馏技术，已被Meta研究小组列为重点研究对象。

😨Meta高层对Llama模型的表现表示担忧，认为其在成本和性能上均无法与DeepSeek竞争。

💡OpenAI研究员指出，DeepSeek的成功表明可以用相对较少的算力获得非常强大的AI模型，这引发了业界对AI模型发展方向的思考。

DeepSeek引硅谷巨震，Meta陷入恐慌，紧急组建研究小组。

近日，中国AI公司DeepSeek发布的R1模型（DeepSeek R1）热度飙升。1月24日，在专业大模型排名Arena上，DeepSeek-R1基准测试已经升至全类别大模型第三，其中在风格控制类模型（StyleCtrl）分类中与OpenAI o1并列第一；而其竞技场得分达到1357分，略超OpenAI o1的1352分。

据报道，面对DeepSeek的挑战，Meta迅速采取行动，已组建了多个“小组”来研究DeepSeek的技术细节。

其中两个小组正在试图了解DeepSeek如何降低训练和运行大模型的成本，第三小组正在试图弄清楚DeepSeek使用的数据集，第四小组则正在考虑基于DeepSeek模型属性重构Meta的Llama模型。

此外，DeepSeek此前在技术论文中介绍的降本方法，也已被Meta的研究小组列为重点研究对象，包括模型蒸馏（distillation）等技术。Meta希望通过这些努力，能够在即将发布的Llama 4中实现技术突破。

Meta的AI基础设施总监Mathew Oldham等高层领导此前公开表示，他们对Llama的表现感到担忧，担心其无法与DeepSeek竞争。

Meta的开发者社区也反映，尽管Llama模型是免费的，但其运行成本往往高于OpenAI的模型——因为OpenAI能够通过批量处理数百万用户的查询来降低成本，而使用Llama的小型开发者则无法达到这种规模。

OpenAI高级研究员Noam Brown上周在X上表示：

“DeepSeek表明你可以用相对较少的算力获得非常强大的AI模型。”

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签