量子位 04月09日
Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta最新基础模型Llama 4发布后,用户反馈代码能力和长文写作表现不佳,引发广泛讨论。同时,Meta AI研究主管Joelle Pineau宣布离职,更添变数。有匿名爆料称,Llama 4可能因数据问题受限,导致性能下降。文章分析了Llama 4在各项测试中的表现,并探讨了其可能面临的挑战,如版权诉讼导致的数据限制,以及来自竞争对手的压力。文章还提到了Meta内部的担忧,以及对未来发展的思考。

🤔Llama 4在发布后,用户对其代码能力表示失望,尤其在编程测试中表现不佳,例如小球反弹测试中出现错误。

📊Llama 4在第三方基准测试中的排名表现不佳,与官方测评结果形成鲜明对比,引发对测试数据真实性的质疑。

✍️在长文章写作方面,Llama 4在EQBench测评中垫底,出现内容重复和写作公式化的问题,这可能是由于数据来源受限所致。

📢有匿名爆料称,Llama 4的训练可能受到数据泄露和版权诉讼的影响,导致其性能下降。Meta内部可能对Llama 4的未来发展感到担忧。

关注前沿科技 2025-04-07 12:20 北京

代码能力崩盘,长文写作垫底,AI研究主管发布前宣布离职

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

Meta最新基础模型Llama 4发布36小时后,评论区居然是这个画风:

失望,非常失望
不知道他们后训练怎么搞的,总之不太行
在[各种测试]2中失败
……

还被做成表情包调侃,总结起来就是一个“差评如潮”。

具体来看,大家的抱怨主要集中在代码能力。

最直观的要数经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉下去了。

反映在榜单上,成绩也相当割裂。

发布时的官方测评(LiveCodeBench)分数和在大模型竞技场表现明明都很不错。

但到了各种第三方基准测试中,情况大多直接逆转,排名末尾。

让人不由得怀疑,这个竞技场排名到底是数据过拟合,还是刷票了。

就在Llama 4即将发布前几天,Meta AI研究主管Joelle Pineau在工作8年之后突然宣布离职,总之就是不太妙。

Llama 4怎么了?

大模型关注者们火热实测吐槽之际,一则有关Llama 4的匿名爆料,突然引起轩然大波:

有网友称自己已向Meta GenAI部门提交提交辞职,并要求不要署名在Llama 4的技术报告上。

原贴发布在海外留学求职交流平台一亩三分地,在国内也引起很多讨论。

此爆料尚未得到证实,但有人搬出Meta GenAI负责人Ahmad Al-Dahle的帖子,至少能看出在Llama 4大模型竞技场里运行的是特殊版本模型。

还有Meta前员工借此话题贴出2024年11月的一项研究,指出从Llama 1开始数据泄露的问题就存在了。

也不只是编程能力一个方面有问题,在EQBench测评基准的的长文章写作榜中,Llama 4系列也直接垫底。

榜单维护者_sqrkl说明了具体情况。

测试非常简单,模型需要先完成一个短篇小说的头脑风暴、反思并修改写作计划,最终每轮写1000字,重复8轮以上。

由Claude-Sonnet 3.7来当裁判,先对每个章节单独打分,再对整个作品打分。

Llama 4的低分表现在写到后面开始大段的内容重复,以及写作非常公式化。

对此结果,有一个猜想是之前的版权诉讼让Meta删除了网络和书籍数据,使用了更多的合成数据。

在这场诉讼中,许多作家发现自己的作品可能被用于AI训练,还到伦敦的Meta办公室附近发起抗议。

Llama 4发布后的种种,让人联想到年初的匿名员工爆,有网友表示当初只是随便看看,现在却开始相信了:

在这条爆料中,Deepseek v3出来之后,训练中的Llama4就显得落后了,中层管理的薪水都比DeepSeek V3的训练成本都高,Meta内部陷入恐慌模式。

让人不由得感叹,DeepSeel-R1横空出世仅仅两个月时间,却像过了几辈子。

参考链接:
[1]https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/
[2]https://www.1point3acres.com/bbs/thread-1122600-1-1.html
[3]https://x.com/suchenzang/status/1909070231517143509
https://x.com/TheAhmadOsman/status/1908833792111906894


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

速抢席位!中国AIGC产业峰会观众报名通道已开启 🙋‍♀️

最新嘉宾曝光啦 🔥 百度、华为、AWS、无问芯穹、数势科技、面壁智能、生数科技等十数位AI领域创变者将齐聚峰会,让更多人用上AI、用好AI,与AI一同加速成长~

4月16日,就在北京一起来深度求索AI怎么用 🙌 点击报名参会



🌟 一键星标 🌟

科技前沿进展每日见



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Llama 4 Meta AI模型 代码能力 长文写作
相关文章