IT之家 04月07日
Meta Llama 4 发布 36 小时“差评如潮”,匿名员工爆料拒绝署名技术报告
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta最新发布的Llama 4大模型在发布后36小时内遭遇“差评如潮”,用户主要集中在代码能力方面的质疑。测试结果表明,Llama 4在多个第三方基准测试中表现不佳,甚至出现“小球穿墙”的低级错误。与此同时,有匿名爆料称Meta员工拒绝在Llama 4的技术报告上署名,引发了对模型质量和数据问题的担忧。结合Meta AI研究主管离职等事件,Llama 4面临着信任危机,其表现与Meta此前的官方测评形成鲜明对比,令人对模型的技术细节和训练数据产生质疑。

😠 **代码能力受质疑:** 用户吐槽Llama 4在“氛围编程”测试中出现小球穿墙的错误,反映出其代码能力不足。在第三方基准测试中,Llama 4的表现也普遍落后,与发布时官方测评结果形成鲜明对比。

🤔 **匿名爆料引发担忧:** 有匿名爆料称Meta员工拒绝在Llama 4的技术报告上署名,暗示模型可能存在问题。Meta GenAI负责人发布的帖子显示,Llama 4大模型竞技场运行的是特殊版本模型,引发对模型真实水平的质疑。

📉 **多方面表现不佳:** Llama 4在EQBench测评的长文章写作榜中也垫底,表现出内容重复和写作公式化的特点。这引发了对Meta可能因版权诉讼而删除网络和书籍数据,转而使用更多合成数据的猜测。

😔 **信任危机浮现:** Meta AI研究主管Joelle Pineau离职,以及年初的匿名员工爆料,加剧了人们对Llama 4的担忧。有网友表示,Deepseek v3的出现,使得Llama4在训练中显得落后,Meta内部可能陷入恐慌。

Meta 最新基础模型 Llama 4 发布 36 小时后,评论区居然是这个画风:

失望,非常失望

不知道他们后训练怎么搞的,总之不太行

在 [各种测试] 中失败

……

还被做成表情包调侃,总结起来就是一个“差评如潮”。

具体来看,大家的抱怨主要集中在代码能力

最直观的要数经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉下去了。

反映在榜单上,成绩也相当割裂。

发布时的官方测评(LiveCodeBench)分数和在大模型竞技场表现明明都很不错。

但到了各种第三方基准测试中,情况大多直接逆转,排名末尾

让人不由得怀疑,这个竞技场排名到底是数据过拟合,还是刷票了。

就在 Llama 4 即将发布前几天,Meta AI 研究主管 Joelle Pineau 在工作 8 年之后突然宣布离职,总之就是不太妙。

Llama 4 怎么了?

大模型关注者们火热实测吐槽之际,一则有关 Llama 4 的匿名爆料,突然引起轩然大波:

有网友称自己已向 Meta GenAI 部门提交提交辞职,并要求不要署名在 Llama 4 的技术报告上

原贴发布在海外留学求职交流平台一亩三分地,在国内也引起很多讨论。

此爆料尚未得到证实,但有人搬出 Meta GenAI 负责人 Ahmad Al-Dahle 的帖子,至少能看出在 Llama 4 大模型竞技场里运行的是特殊版本模型

还有 Meta 前员工借此话题贴出 2024 年 11 月的一项研究,指出从 Llama 1 开始数据泄露的问题就存在了。

也不只是编程能力一个方面有问题,在 EQBench 测评基准的的长文章写作榜中,Llama 4 系列也直接垫底

榜单维护者_sqrkl 说明了具体情况。

测试非常简单,模型需要先完成一个短篇小说的头脑风暴、反思并修改写作计划,最终每轮写 1000 字,重复 8 轮以上。

由 Claude-Sonnet 3.7 来当裁判,先对每个章节单独打分,再对整个作品打分。

Llama 4 的低分表现在写到后面开始大段的内容重复,以及写作非常公式化。

对此结果,有一个猜想是之前的版权诉讼让 Meta 删除了网络和书籍数据,使用了更多的合成数据。

在这场诉讼中,许多作家发现自己的作品可能被用于 AI 训练,还到伦敦的 Meta 办公室附近发起抗议。

Llama 4 发布后的种种,让人联想到年初的匿名员工爆,有网友表示当初只是随便看看,现在却开始相信了:

在这条爆料中,Deepseek v3 出来之后,训练中的 Llama4 就显得落后了,中层管理的薪水都比 DeepSeek V3 的训练成本都高,Meta 内部陷入恐慌模式。

让人不由得感叹,DeepSeel-R1 横空出世仅仅两个月时间,却像过了几辈子。

参考链接:

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨,原标题《Llama 4 发布 36 小时差评如潮!匿名员工爆料拒绝署名技术报告》

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Llama 4 Meta 大模型 差评 匿名爆料
相关文章