LIama 4疑似作弊，都怪Meta把牛皮吹破了

“内卷”从不只是国内互联网大厂的标配，在大洋彼岸的硅谷巨头也一样。上周末，当大家还在享受清明小长假时，Meta突然更新了新一代的LIama 4大模型。而LIama 4最大的变化就在于引入“混合专家架构”（MoE）提升效率，使得其超越DeepSeek-V3，成为了lmsys大模型竞技场中排名第一的开源模型。

为此Meta方面洋洋得意地表示，“今天是原生多模态AI创新新时代的开始”。然而仅仅36小时之后，Llama 4就迎来了危机。

海外用户在实测之后，用“差评如潮”表达了他们的愤怒，Reddit、Discord的相关频道更是直接变成“吐槽大会”。哪怕不提数学推理、代码生成等任务表现糟糕，即使是Meta在官方文档中吹嘘的行业领先图像理解能力，大量用户也认为Llama 4不如谷歌去年夏季开源的Gemma 2。

甚至还出现了LIama 4在最受关注的大模型竞技场中独占鳌头，可到了各式各样的第三方基准测试中不仅没能名列前茅，反而直接变成了吊车尾。表现如此让人大跌眼镜的情况下，难道LIama 4也是“图片仅供参考”？

不仅如此，有AI研究人员在社交媒体上表示，Meta提交给LM Arena（著名的人类评估排行榜）进行测试评估的LIama 4 Maverick版本，与公开发布给开发者使用的可能并非同一个版本。同时又有人发现，Meta GenAI团队负责人Ahmad Al-Dahle在推文中透露，Llama 4在lmsys大模型竞技场里运行的是特殊版本。

紧接着到了北京时间本周一上午，有人在知名的北美留学论坛“一亩三分地”上爆料称，Llama 4的训练不及预期，公司领导层提出在训练后期将基准测试的测试集数据混入训练数据中，以此实现更漂亮的基准测试成绩。

事实上，大模型在基准测试中作弊已经不是什么新鲜事，比如各路大模型在GSM8k和MATH这两个常见的数学基准测试中，动辄就能取得80%以上的超高正确率，其实就是大模型记住了GSM8k和MATH的“题库”，从而导致实际测试中不是推理、而是填答案。

正如"有些事不上秤不到四两重，要是上了秤一千斤都打不住”说的那样，大模型刷题如今确实是业界的潜规则，但要摆在台面上就是另一回事了。要知道，今年年初OpenAI仅仅是因为向FrontierMath基准测试提供资金支持，就被外界指控的其o3模型数学能力惊人的原因是因为“提前看了试卷”。

瓜田李下的行为在AI圈显然不被认可的情况下，更何况Llama 4这种内部吹哨人已经站出来指证。面对LIama 4作弊的指控，Meta的员工也坐不住了，有两位一亩三分地的用户用实名发声，宣称Meta GenAI从未使用基准测试的数据用来训练LIama 4。

当然，即便没有Meta的员工实名否认，这位匿名爆料者也大概率是造谣，因为其爆料中有一个关键信息表明其并非Meta GenAI的成员。这位匿名爆料者在爆料的末尾提及，数天前宣布离职的Meta人工智能研究副总裁Joelle Pineau，也是因为不认同Llama 4而选择离开。

虽然Joelle Pineau确实是Meta的AI副总裁，可她主管的是基础AI研究团队（Fundamental AI Research，FAIR），可推出LIama 4的却是Meta GenAI。

那么问题就来了，为什么这种谣言会有市场呢？一亩三分地这个华人论坛上的爆料，更是以异乎寻常的速度被翻译到了Reddit上，可见不仅仅是华人信、说英语的美国人同样也信了。

其实这都怪DeepSeek，其DeepSeek-V3和R1模型过于惊艳，使得Meta在开源模型领域的“一哥”地位被动摇。要知道过去两年Meta的股价之所以能一路攀升，“开源模型一哥”这个身份功不可没。

可DeepSeek的出现就让Meta占领用户心智的进程停滞，所以他们必须要进行反击。如若不然，Meta在GPU、数据中心、电力、水资源等AI基础设施的数百亿美元投入，岂不是打水漂了。所以“开源AI一哥”这个名号，Meta是志在必得。只是想要和能要是两码事，所以Meta或许在LIama 4上也就有了铤而走险的理由。

归根结底，LIama 4的表现差强人意，才是这一系列阴谋论出现的土壤。

【本文图片来自网络】

本文来自微信公众号 “三易生活”（ID：IT-3eLife），作者：三易菌，36氪经授权发布。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签