36kr 04月11日 20:28
LIama 4疑似作弊,都怪Meta把牛皮吹破了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta发布的Llama 4大模型在开源社区引发广泛关注,然而,其表现与预期存在差距,用户对其图像理解、数学推理等能力表示质疑。文章揭示了Llama 4在基准测试中可能存在的作弊行为,以及Meta在开源模型领域面临的竞争压力。DeepSeek等模型的崛起,促使Meta争夺“开源AI一哥”的地位,Llama 4的争议也反映了大模型竞争背后的复杂博弈。

🤔 Llama 4发布后迅速登上lmsys大模型竞技场榜首,但用户实测表现与其宣传不符,在图像理解等关键能力上甚至不如旧模型。

🚨 有消息指出,Meta可能在Llama 4的训练过程中使用了基准测试的数据,以提高其在测试中的成绩,引发了对模型真实能力的质疑。

🌍 这一争议迅速蔓延至海外社区,Reddit、Discord等平台充斥着用户对Llama 4的负面评价,反映了开源社区对大模型性能的严格要求。

⚔️ DeepSeek等模型的出现,动摇了Meta在开源模型领域的领先地位,Meta面临着维护其“开源AI一哥”地位的压力,这或许是Llama 4争议背后的深层原因。

“内卷”从不只是国内互联网大厂的标配,在大洋彼岸的硅谷巨头也一样。上周末,当大家还在享受清明小长假时,Meta突然更新了新一代的LIama 4大模型。而LIama 4最大的变化就在于引入“混合专家架构”(MoE)提升效率,使得其超越DeepSeek-V3,成为了lmsys大模型竞技场中排名第一的开源模型。

为此Meta方面洋洋得意地表示,“今天是原生多模态AI创新新时代的开始”。然而仅仅36小时之后,Llama 4就迎来了危机。

海外用户在实测之后,用“差评如潮”表达了他们的愤怒,Reddit、Discord的相关频道更是直接变成“吐槽大会”。哪怕不提数学推理、代码生成等任务表现糟糕,即使是Meta在官方文档中吹嘘的行业领先图像理解能力,大量用户也认为Llama 4不如谷歌去年夏季开源的Gemma 2。

甚至还出现了LIama 4在最受关注的大模型竞技场中独占鳌头,可到了各式各样的第三方基准测试中不仅没能名列前茅,反而直接变成了吊车尾。表现如此让人大跌眼镜的情况下,难道LIama 4也是“图片仅供参考”?

不仅如此,有AI研究人员在社交媒体上表示,Meta提交给LM Arena(著名的人类评估排行榜)进行测试评估的LIama 4 Maverick版本,与公开发布给开发者使用的可能并非同一个版本。同时又有人发现,Meta GenAI团队负责人Ahmad Al-Dahle在推文中透露,Llama 4在lmsys大模型竞技场里运行的是特殊版本。

紧接着到了北京时间本周一上午,有人在知名的北美留学论坛“一亩三分地”上爆料称,Llama 4的训练不及预期,公司领导层提出在训练后期将基准测试的测试集数据混入训练数据中,以此实现更漂亮的基准测试成绩。

事实上,大模型在基准测试中作弊已经不是什么新鲜事,比如各路大模型在GSM8k和MATH这两个常见的数学基准测试中,动辄就能取得80%以上的超高正确率,其实就是大模型记住了GSM8k和MATH的“题库”,从而导致实际测试中不是推理、而是填答案。

正如"有些事不上秤不到四两重,要是上了秤一千斤都打不住”说的那样,大模型刷题如今确实是业界的潜规则,但要摆在台面上就是另一回事了。要知道,今年年初OpenAI仅仅是因为向FrontierMath基准测试提供资金支持,就被外界指控的其o3模型数学能力惊人的原因是因为“提前看了试卷”。

瓜田李下的行为在AI圈显然不被认可的情况下,更何况Llama 4这种内部吹哨人已经站出来指证。面对LIama 4作弊的指控,Meta的员工也坐不住了,有两位一亩三分地的用户用实名发声,宣称Meta GenAI从未使用基准测试的数据用来训练LIama 4。

当然,即便没有Meta的员工实名否认,这位匿名爆料者也大概率是造谣,因为其爆料中有一个关键信息表明其并非Meta GenAI的成员。这位匿名爆料者在爆料的末尾提及,数天前宣布离职的Meta人工智能研究副总裁Joelle Pineau,也是因为不认同Llama 4而选择离开。

虽然Joelle Pineau确实是Meta的AI副总裁,可她主管的是基础AI研究团队(Fundamental AI Research,FAIR),可推出LIama 4的却是Meta GenAI。

那么问题就来了,为什么这种谣言会有市场呢?一亩三分地这个华人论坛上的爆料,更是以异乎寻常的速度被翻译到了Reddit上,可见不仅仅是华人信、说英语的美国人同样也信了。

其实这都怪DeepSeek,其DeepSeek-V3和R1模型过于惊艳,使得Meta在开源模型领域的“一哥”地位被动摇。要知道过去两年Meta的股价之所以能一路攀升,“开源模型一哥”这个身份功不可没。

可DeepSeek的出现就让Meta占领用户心智的进程停滞,所以他们必须要进行反击。如若不然,Meta在GPU、数据中心、电力、水资源等AI基础设施的数百亿美元投入,岂不是打水漂了。所以“开源AI一哥”这个名号,Meta是志在必得。只是想要和能要是两码事,所以Meta或许在LIama 4上也就有了铤而走险的理由。

归根结底,LIama 4的表现差强人意,才是这一系列阴谋论出现的土壤。

【本文图片来自网络 】 

本文来自微信公众号 “三易生活”(ID:IT-3eLife),作者:三易菌,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Llama 4 Meta 大模型 开源
相关文章