AI & Big Data 19小时前
Llama 4問世反應平平,開發人員認效能表現言過其實
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta公司近期发布的Llama 4模型家族引发了广泛关注,但随之而来的是对其性能的质疑。部分开发者指出,Meta在基准测试结果上可能存在操纵行为,实际表现或未如宣传般出色。尽管Meta声称Llama 4在某些方面优于竞争对手,但实际测试结果和用户体验却并不尽如人意。此外,模型架构、上下文长度以及优化版本与开源版本的差异,都使得Llama 4的真实性能和应用前景蒙上了一层阴影。

🧐Meta发布的Llama 4家族是首个采用混合专家(MoE)架构的模型系列,包括总参数为4000亿的Maverick和1090亿的Scout模型,两者都设计使用170亿活跃参数以确保高效能。

🤔部分开发者质疑Meta的基准测试结果,认为Llama 4在LMArena Chatbot Arena LLM测试中获得的排名,可能依赖于经过特别优化的“实验聊天版”模型,而非公开发布的版本。

😮‍💨Llama 4 Scout虽然声称加大了上下文长度,但实际应用中受限于第三方服务平台,其上下文长度并未完全发挥。用户在进行摘要总结测试时,结果也并不理想。

💡一些用户认为,Llama 4的平庸表现可能是因为开发团队对MoE架构的熟悉度不足,导致模型开发过于仓促。另有分析指出,扩展单一AI模型架构的方法可能已接近瓶颈。

Meta本周公布旗艦模型Llama 4家族,不過一些開發人員試用後,發現標竿測試結果經過操弄。也有人覺得Llama 4模型效能並不如Meta說的那麼高。

Llama 4是Meta第一個以混合專家(mixture of experts,MoE)架構訓練的模型家族。Meta並已開源二個Llama 4模型,包括總參數4000億的Maverick和1090億的Scout,為了確保高效能,兩者都設計使用170億活躍參數。Meta也搬出數據,顯示比競爭者GPT 4o、Gemini 2.0來得好,也和DeepSeek v3互有高下。

Meta公布Llama 4 Maverick的LMArena Chatbot Arena LLM效能測試排行榜,顯示為第2名(第1名為Gemini-2.5 Pro Experimental),超越GPT-4.5 preview、Gemini 2.0 Flash Thinking Experimental。但在該排行榜上評比得分1417分的是「實驗聊天版(experimental chat version)」的Llama 4 Maverick。Meta在官方部落格也承認「對話性優化過」的版本,不同於開放下載的版本。一名試用過的開發人員就表示LMArena的版本一定做過特別處理。

因此這表示,Meta似乎是以一個做過優化的模型版本獲得佳績,但不發布,而是發表原始版本。Techcrunch分析,這會讓開發人員難以預測模型在特定情境下該有的效能表現。Meta尚未對此評論。

另外,也有人對Llama 4的實際表現感到失望。例如Meta大力突顯Llama 4 Scout加大了context length為10M字詞,能提供更高品質的回應,但研究人員認為言過其實。Ars Technica引述獨立研究人員Simon Willison發現,受到AI第三方服務供應平臺系統如Groq、Fireworks限制,Scout最多只到128K字詞,無法完全發揮其潛力。Willison還透過OpenRouter服務使用Scout,要求它將一篇約2萬字詞的線上討論做重點摘要,但結果「根本一團糟」(complete junk output),還出現不斷跳針重覆的段落。

有使用者認為,170億活動參數在今天而言已經太少,但另一些使用者認為,Llama 4平庸的測試成績是急就章的結果,顯示開發團隊沒有足夠時間熟悉MoE架構就被迫交出成果。

Ars Technica則分析,GPT-4.5和Llama 4的評價褒貶不一,其高成本和效能限制可能反映,只擴展單一AI模型架構的作法已經走到死胡同。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Meta Llama 4 模型性能 基准测试 MoE架构
相关文章