虎嗅 20小时前
拧巴的扎克伯格
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta公司推出的Llama 4大模型在发布后遭遇性能质疑和造假风波,引发广泛关注。尽管Meta官方否认了造假行为,但开发者对其性能的实际表现提出了质疑,认为其不如DeepSeek等模型。文章深入探讨了Meta面临的压力,以及Llama系列模型在开源领域影响力下降的现状。文章指出,Meta急于发布Llama 4,可能是为了应对DeepSeek等竞争对手的挑战。最终,这场风波使得Meta陷入信任危机,修复Llama 4的缺陷,重建开发者信任成为当务之急。

🤔 Llama 4发布后,开发者对其性能提出质疑,认为其在代码、逻辑推理等方面不如GPT-4o、DeepSeek R1等模型。

🧐 传闻Meta为赶工期,在后训练阶段将测试集混入训练数据,以提升基准分数,引发造假嫌疑。

😮 Meta官方回应否认造假,解释模型不稳定,但并未完全消除疑虑,反而引发了更多关于发布时机的质疑。

😟 Meta面临来自DeepSeek、Qwen等模型的竞争压力,Llama系列模型在开源社区的影响力下降,危机感加剧。

😨 文章指出,Meta的核心问题在于Llama 4的性能缺陷,以及如何修复Bug、重建开发者信任。

无疑,这几天AI圈最大的流量都被Meta承包了。

先是4月6日,迟迟不出手的Meta终于亮相,一举扔出包括Llama 4 Scout()、Llama 4 Maverick ()和Llama 4 Behemoth在内的Llama 4套餐,凭借“原生多模态MoE架构”“性能超越DeepSeek V3”“1000万token上下文”等亮点,一路高举高打。业界也是喜闻乐见,“开源之光依旧能打”等声音持续不断,Llama 4出道即巅峰。

但没想到,紧接着负面声音层出不穷。

一方面,开发者在实际测评时发现,Llama 4的性能并没有官方宣扬的那样强大,甚至在代码、逻辑推理方面,远不如GPT-4o、DeepSeek R1 、 Gemini 2.5 pro。

另一方面,有自称Meta内部员工的人员爆料,Llama 4存在造假嫌疑,为了“赶工期”,在后训练阶段中,将多个benchmark测试集混入训练数据,以提升基准分数。甚至,技术负责人看不过去这样的造假行为,递交辞职报告。传闻一出,立即发酵,Meta陷入舆论风波中,各种声讨声不断。

一位大模型从业者在朋友圈发文称,“Meta的‘作弊’行为,让他想到2023年百模大战时期。”另有业内人士认为大模型和芯片不一样,一味追求跑分榜单意义不大,大模型的核心能力还是要放到业务场景中实战。

而经过一夜的舆论发酵,目前,Meta官方已正式做出回应,Llama 4不存在造假、打榜等行为,模型质量表现不一,是有充足的理由可以解释的,即“我们在模型一准备好就立即发布了,所以预计在各个平台的公开实现需要几天时间才能完全稳定下来”。

之后,Meta首席AI科学家Yann LeCun也转发澄清贴,表明Meta并不存在造假行为。

但是这番解释并没有让大家信服,根据澄清文,紧跟而来的疑点是,“如果模型还没有稳定下来,Meta为何急着发布?”

其实,关于这一点,答案很明显,Meta急了。

在Llama 4发布之前,Meta上一次发布新品还是在去年7月,发布Llama 3.1 405B模型,彼时DeepSeek仍处于蛰伏期,Meta风光无限,CEO扎克伯格也高调预告着已经处于开发中的Llama 4。

只是没想到,今年年初,DeepSeek凭借强大的多场景理解与内容生成能力成功“出圈”,AI圈的竞争格局瞬间改变,压力给到一众大模型企业,Meta自然也不例外。有消息称,当时Meta就意识到,相较于DeepSeek-V3,研发中的Llama 4 在各项测试中都比不过前者,于是研发进程一再被打乱。

一位业内人士告诉虎嗅,相传DeepSeek出来后,Meta便在内部设置了四个作战室,天天研究DeepSeek,思考该如何复现其模型能力。另外,这次Meta首次在Llama系列模型中采用MoE架构,或许也是出于这一路径早已被DeepSeek验证过。

但显然,Llama 4的性能表现并没有达到预期,即便是大手笔地用了20万的显卡集群。

其实,或许Meta的压力要来得更早一些。

在Llama 4 造假传闻出来后,虎嗅在向业内人士求证的过程中,得到的反馈大都是,“这很正常,Meta被逼急了,就只能去作弊了。”

一位业内人士告诉虎嗅,Llama的危机感并不是完全是因为年初DeepSeek出现才有的,这只是加速了这一认知,其实早从去年下半年开始,在开源上,Llama系列模型的影响力就大不如前了,开发者早早就达成一致,转向性能表现更好的Qwen系列和DeepSeek。

所以,在这次Llama 4发布之际,大家更多是抱着Meta将带来怎样的提升与改进,并非期待它真的能够颠覆DeepSeek,重新翻盘。

只是没想到,Meta不仅没有让大家看到它的进步,更是因为一些“迷惑”操作,让自己深陷造假风波。

而最新消息是,目前在社区内还有一些开发者在继续试图找出Meta造假的证据。

其实,不管这次Meta造假与否,已经没那么重要了,重点是,Llama系列模型已经无法再现昔日荣光是真的,Meta面临着巨大的信任危机是真的。如果说之前,Meta的压力与挑战还在于如何应对DeepSeek和Qwen带来的冲击,那么现在,如何针对Llama 4 存在的性能缺陷,早点修复Bug,重新夺回起开发者的信任,才是更为迫切的难题。

原本,这只是AI圈一场事先张扬的新品发布,没想到却一波三折,最终演变成一场“闹剧”,可想而知,这早已背离Meta的初衷。

不知道看到这样的结果,Meta是否会后悔,反正已经晚了,又何必在乎再晚一点,面对DeepSeek这样横空出世的“大魔王”,焦虑是正常的,如果老老实实交出一份诚心之作,即便再不如意,也不会像如今这般“惨淡收场”。

文章标题:拧巴的扎克伯格

文章链接:https://www.huxiu.com/article/4216259.html

阅读原文:拧巴的扎克伯格_虎嗅网

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Meta Llama 4 大模型 性能质疑 信任危机
相关文章