Meta的Maverick AI模型在基准测试中的排名已明显低于竞争对手

Cnbeta 04月12日 11:17

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Meta公司因其Llama 4 Maverick模型在LM Arena基准测试中取得高分而引发争议。LM Arena维护人员为此道歉并修改了政策，重新评估未经修改的Maverick模型。结果显示，未经优化的Maverick模型性能相对较弱，落后于GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等模型。Meta解释称，实验性的Maverick模型针对对话进行了优化，但在LM Arena之外的表现难以预测。Meta公司发布开源版本，期待开发者根据自身需求定制Llama 4。

🧐 Meta的Llama 4 Maverick模型因在LM Arena基准测试中取得高分而受到关注，引发了对测试结果准确性的质疑。

🛠️ LM Arena维护人员对测试结果进行了修改，并重新评估了未经修改的Maverick模型，结果显示其竞争力不如预期。

🤔 Meta解释称，实验性的Maverick模型针对对话进行了优化，这使得它在LM Arena中表现出色，但在其他环境下的表现难以预测。

📢 Meta公司发布了开源版本的Llama 4，并鼓励开发者根据自身用例进行定制，期待开发者反馈。

本周早些时候，Meta因使用其 Llama 4 Maverick 模型的未发布实验版本在众包基准测试 LM Arena 上取得高分而陷入困境。此事促使 LM Arena 的维护人员道歉，并修改了他们的政策，并使用未经修改的原版 Maverick 进行评分。事实证明，它的竞争力并不强。

截至周五，未经修改的 Maverick 模型“Llama-4-Maverick-17B-128E-Instruct”的排名低于OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 和Google的 Gemini 1.5 Pro 等模型。这些模型中有许多甚至都是几个月前推出的。

为什么表现不佳？Meta上周六发布的图表中解释道，其实验性的 Maverick 模型 Llama-4-Maverick-03-26-Experimental 已“针对对话性进行了优化” 。这些优化显然在 LM Arena 中表现出色，因为该平台要求人类评分员比较各个模型的输出，并选择他们更倾向于哪个模型。

由于各种原因，LM Arena 从来都不是衡量 AI 模型性能的最可靠指标。然而，根据基准定制模型——除了具有误导性之外——也使得开发人员难以准确预测模型在不同环境下的表现。

Meta 发言人在一份声明中表示，Meta 尝试了“所有类型的自定义变体”。

“‘Llama-4-Maverick-03-26-Experimental’ 是我们测试过的聊天优化版本，在 LMArena 上也表现良好，”该发言人表示。“我们现在已经发布了开源版本，并将观察开发者如何根据自身用例定制 Llama 4。我们非常期待看到他们最终的成果，并期待他们持续的反馈。”

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签