AI & Big Data 04月07日
Meta公布MoE架構開發的Llama 4 開源4000億、1090億參數的Maverick
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta推出了Llama 4模型家族,这是其首个混合专家(MoE)架构模型家族。该家族包含Maverick、Scout和正在训练的Behemoth三个模型,均在文本、图像和视频等多种模态上进行训练。Llama 4使用了30万亿tokens的训练数据,是Llama 3的两倍。Maverick和Scout已开源,Maverick拥有4000亿参数,Scout拥有1090亿参数。Behemoth是最大的MoE模型,参数量高达2万亿。Llama 4在跨语言、图像、代码等任务上表现出色,部分优于GPT-4o和Gemini 2.0,并且在推理能力上有所突破,为用户提供了更高效、更智能的体验。

💡Llama 4是Meta首个采用混合专家(MoE)架构的模型家族,包含Maverick、Scout和Behemoth三个模型。MoE架构使模型在训练和推理时更节省计算资源,在相同算力下提供更好的质量。

🌐Llama 4的训练数据涵盖了200种语言,总字词(token)数超过30万亿,是Llama 3的两倍以上。Maverick和Scout已开源,可在Llama.com和Hugging Face下载,其中Maverick总参数4000亿,Scout总参数1090亿。

⚙️Llama 4采用了多项创新技术,包括早期融合(early fusion)技术、改良的视觉编码器和MetaP技术。这些技术提升了训练效率和模型性能,使得Llama 4在跨语言、图像和代码等任务上表现出色,部分优于GPT-4o和Gemini 2.0。

🚀Llama 4 Maverick在跨语言、影像与程式码能力表现优异,在多數任務上(尤其是影像、推理、多语言、长上下文)优于GPT-4o、Gemini 2.0。而1090亿参数的Scout则将支援的context length由Llama 3的128K扩大到10M字词,其标竿测试结果也超越Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1。

回應新崛起的DeepSeek,Meta上周末公布第一個混合專家(mixture of experts,MoE)模型家族Llama 4,並同時開源4000億參數的Maverick及1090億參數的Scout,此外預覽高達2兆參數量的Behemoth。

Llama 4是Meta第一個以混合專家(mixture of experts,MoE)架構訓練的模型家族。Llama 4訓練資料涵蓋包含大量文字、圖像與影片,涵括200種語言,總字詞(token)數為30兆,是Llama 3的兩倍以上。

今天開源的二個Llama 4模型,Maverick和Scout都有1700億活躍參數,其中Maverick的MoE層使用128個專家及一個共享專家,總參數4000億,1M context windows。Scout則有16個專家,總模型參數1090億,10M context windows。Scout適合單一顆H100 GPU平臺。Maverick可快速部署在一臺H100 DGX主機上,或採分散式推論架構提升效率。

二個模型現在已在Llama.comHugging Face開放下載。Meta未來幾天內會提供給合作夥伴。

基於混合專家架構,Llama 4單一字詞僅啟動一小部份參數,因此在訓練和推論更省運算效能,在固定運算資源下能提供比密集模型更好的品質。同時Meta使用了新技術訓練。像是運用早期融合(early fusion)手法,可在整合模型骨幹上整合大量無標籤的文字和視覺字詞。Meta也改良視覺編碼器,讓視覺編碼器更適應LLM。Meta並開發了一個新技術MetaP,使參數可以在不同的batch size、模型規模、訓練長度中保持良好遷移性。

藉由MoE架構平行化最佳化配合動態分配GPU資源,提高訓練彈性,打破傳統分散式架構需要全部模型同時載入的限制,如此一來,相較於前一代架構,訓練效率提升約10倍。

後訓練部份包含三階段方法,包括輕量監督微調(lightweight supervised fine-tuning,SFT)、線上強化學習(online reinforcement learning,Online RL)及輕量偏好最佳化(lightweight direct preference optimization,DPO),以提升模型難度的適應能力,同時確保對話語言的品質和智慧平衡。

談及結果,4000億參數的Llama 4 Maverick在跨語言、影像與程式碼能力表現優異,在多數任務上(尤其是影像、推理、多語言、長上下文)優於GPT-4o、Gemini 2.0。而在程式與邏輯推理能力上,與DeepSeek V3.1(更大模型)互有高下。而1090億參數的Scout則將支援的context length由Llama 3的128K擴大到10M字詞,其標竿測試結果也超越Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1。

此外,Meta也公布正在訓練中的教師模型Llama 4 Behemoth。整個Llama 4是以FP8精度進行高效率預訓練,而Llama 4 Behemoth則是利用Llama 4 Behemoth FP8精度及3.2萬GPUs上預訓練,達到390 TFLOPs/GPU,它是今天公布最大的MoE架構多模態模型,每字詞使用288B活躍參數,具16專家模組(Experts),總參數達2兆,是Meta最強、最聰明的模型之一,Llama 4 Maverick正是以Behemoth為教師模型協同蒸餾而成。

Behemoth在理工、科學標竿測試如MATH-500和GPQA Diamond分數,超越GPT-4.5、Claude Sonnet 3.7及Gemini 2.0 Pro。

Llama 4 Maverick及Scout,除了開放給開發人員,消費者現在也可以透過應用程式WhatsApp、Messenger、Instagram Direct或Meta AI網站感受Llama 4。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Llama 4 Meta MoE架构 混合专家模型
相关文章