Meta 新旗舰 AI 模型 Llama 4 Maverick 测试成绩遭质疑，被指针对性优化

IT之家 04月07日 07:37

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Meta公司新发布的旗舰AI模型Maverick在LM Arena测试中取得第二名，但其成绩的真实性引发争议。研究人员指出，Meta在测试中使用的版本与开发者可用的版本不一致，前者经过专门优化以适应测试环境。这种做法引发了对测试结果可靠性的质疑，并给开发者带来了困扰，因为难以预测模型在实际场景中的表现。Meta的行为被指具有误导性，因为测试结果可能无法准确反映模型的真实能力。

🤔Meta公司发布了名为Maverick的新旗舰AI模型，并在LM Arena测试中取得了第二名的成绩，但该成绩的可靠性受到了质疑。

💡研究人员指出，Meta在LM Arena上部署的Maverick版本与广泛提供给开发者的版本并不一致，参与测试的版本是“针对对话性优化的Llama 4 Maverick”。

🧐LM Arena作为测试工具，其可靠性本身就存在争议，而Meta对模型进行专门的定制或微调以获得更高分数的行为，引发了对测试结果真实性的质疑。

😕这种对模型进行针对性优化，然后只发布一个“普通版”的行为，给开发者带来了诸多困扰，因为这使得开发者难以准确预测该模型在特定场景下的实际表现。

😶‍🌫️研究人员观察到公开可下载的Maverick版本与LM Arena上托管的模型之间存在显著的行为差异，例如LM Arena版本更倾向于使用大量表情符号，且答案冗长。

IT之家 4 月 7 日消息，Meta 公司上周发布了一款名为 Maverick 的新旗舰 AI 模型，并在 LM Arena 测试中取得了第二名的成绩。然而，这一成绩的含金量却引发了诸多质疑。据多位 AI 研究人员在社交平台 X 上指出，Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。

Meta 在其公告中明确提到，参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。而根据官方 Llama 网站上公布的信息，Meta 在 LM Arena 的测试中所使用的实际上是“针对对话性优化的 Llama 4 Maverick”。这表明，该版本经过了专门的优化调整，以适应 LM Arena 的测试环境和评分标准。

然而，LM Arena 作为一项测试工具，其可靠性本身就存在一定的争议。尽管如此，以往 AI 公司通常不会对模型进行专门的定制或微调，以在 LM Arena 上获得更高的分数，至少没有公开承认过这种做法。而 Meta 此次的行为。

这种对模型进行针对性优化，然后只发布一个“普通版”的行为，给开发者带来了诸多困扰。因为这使得开发者难以准确预测该模型在特定场景下的实际表现。此外，这种行为也具有一定的误导性。理想情况下，尽管现有的基准测试存在诸多不足，但它们至少能够为人们提供一个关于单一模型在多种任务中优缺点的概览。

事实上，研究人员在 X 上已经观察到了公开可下载的 Maverick 版本与 LM Arena 上托管的模型之间存在显著的行为差异。例如，LM Arena 版本似乎更倾向于使用大量的表情符号，并且给出的答案往往冗长且拖沓。

截至IT之家发稿，Meta 公司以及负责维护 LM Arena 的 Chatbot Arena 组织暂未对此做出回应。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签