IT之家 04月14日
Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌,此前被质疑刷榜作弊
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta 最新发布的开源大模型 Llama 4-Maverick 在 LMArena 排名中暴跌,从第 2 名降至第 32 名,引发了对 Meta 刷榜的质疑。开发者发现 Meta 提供给 LMArena 的版本与开源版本不同,后者性能表现逊色。LMArena 官方确认了 Meta 提供了“特供版”,并表示将更新排行榜。Meta 解释称,该模型针对对话进行了优化,但在实际应用中的表现受到质疑,Meta 方面表示将继续接受开发者反馈。

🤔 Llama 4-Maverick 排名大幅下降:LMArena 排名从第 2 名跌至第 32 名,引发对 Meta 刷榜的质疑。

🧐 开发者质疑“特供版”:开发者发现 Meta 提供给 LMArena 的 Llama 4 版本与开源版本不同,导致排名差异。

📢 LMArena 官方回应:Chatbot Arena 官方确认 Meta 提供了“特供版”模型,并考虑更新排行榜。

💡 Meta 解释:Meta 称“Llama-4-Maverick-03-26-Experimental”是针对对话优化的版本,但开源版本表现不佳。

💬 Meta 的回应:Meta 表示会尝试各种定制变体,并鼓励开发者根据自己的使用案例定制 Llama 4,期待持续反馈。

IT之家 4 月 14 日消息,LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名,其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模型的质疑。

4 月 6 日,Meta 发布了最新的大模型 Llama 4,包含 Scout、Maverick 和 Behemoth 三个版本。其中,Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 排行榜中排名第二,仅次于 Gemini 2.5 Pro。然而,随着开发者实际使用 Llama 4 大模型开源版的效果陆续曝光,Llama 4 的口碑急转直下。有开发者发现 Meta 提供给 LMArena 的 Llama 4 版本与提交给社区的开源版本不同,因而质疑 Meta 刷榜作弊。

4 月 8 日,Chatbot Arena 官方发文确认了用户的上述质疑,公开表示 Meta 提供给他们的是“特供版”,并考虑更新排行榜。根据 Chatbot Arena 官方消息,Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本,当时该版本的排名为第二。修正后的模型为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct,是 17B 激活参数、128 个 MoE 专家的指令微调模型。

IT之家注意到,目前开源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为 32 名,远低于 Gemini 2.5 Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)、Qwen2.5-Max(11),甚至连英伟达基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1(17)都不如。

Meta 的 Llama-4-Maverick-03-26-Experimental 为何表现不佳?该公司在上周六发布的一张图表中解释称,该模型是“针对对话性进行优化”的。这些优化显然在 LM Arena 上取得了不错的效果,因为 LM Arena 的人类评分者会比较不同模型的输出,并选择他们更偏好的结果。

由于各种原因,LM Arena 从未被视为衡量 AI 模型性能的最可靠指标。尽管如此,针对基准测试调整模型不仅具有误导性,还使得开发者难以准确预测该模型在不同场景下的表现。

Meta 的一位发言人向 TechCrunch 表示,Meta 会尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本,它在 LM Arena 上也表现不错,”该发言人说,“我们现在已发布了开源版本,将看看开发者如何根据自己的使用案例定制 Llama 4。我们期待看到他们构建的内容,并期待他们持续的反馈。”

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Meta Llama 4 刷榜 LMArena
相关文章