微軟公布Phi-4-Reasoning模型系列

微軟昨（1）日公布最新一代小語言模型（SLM）推理版本Phi-4-Reasoning系列，包括Phi-4-reasoning、Phi-4-reasoning-plus和最小的Phi-4-mini-reasoning，強調效能比美參數量大的模型。微軟預告，新模型之後將會用於支援Copilot+ PC的AI功能。

這是微軟自去年4月公布輕量模型Phi-3後最新進展。Phi-3今年1月推進到Phi-4，並開源140億參數版本。隨後一個月又發表了Phi-4多模態模型。

最新的Phi-4-reasoning為140億參數的開源權重推理模型，是以Phi-4為基礎，利用OpenAI o3-mini示範作為訓練資料，以監督式微調訓練而成。它能有效運用推論時的額外運算資源來生成詳盡的推論串，context length為32k token。而Phi-4-reasoning-plus則是以Phi-4-reasoning為基礎強化學習訓練，比起Phi-4-reasoning，能用更多推論時運算資源，並使用1.5倍的字詞（token）量來提供更準確的回應。

微軟說，Phi-4-reasoning運用精心安排的訓練資料和高品質的合成資料集，可展現媲美大模型的效能。根據微軟提供的AIME 25、HMMT Feb 25、OmniMath及GPQA等標竿測試數據，Phi-4-reasoning比起Phi-4明顯進步，而在推理及能力如數學、程式、解決演算問題與規劃中，都超越DeepSeek-R1 Distill 70B，而且逼近DeepSeek-R1 671B MoE。同時間，二個模型在AIME 25及GPQA測試略遜o3-mini，但OmniMath測試表現卻雙雙超越。

圖片來源／微軟

Phi-4-reasoning及Phi-4-reasoning-plus在所有項目都超越OpenAI-o1-mini。Phi-4-reasoning家族和DeepSeek-R1 671B MoE相比，則是勝負各半。

目前二款模型已在Azure AI Foundry及Hugging Face開放。

微軟還公布了Phi-4-mini-reasoning，是一輕巧的transformer-based語言模型，利用DeepSeek-R1模型的合成資料，包括從中學到博士等級數學題目訓練而成，可以說專為數學推理優化。Phi-4-mini-reasoning參數量僅3.84B，支援128k context length，適合教育、教學應用，也能輕易在筆電等邊緣裝置或是行動裝置上執行。雖然規模小巧，但微軟搬出數據顯示，Phi-4-mini-reasoning在常見數學標竿測試超越參數量二倍大的模型如OpenThinker-70B、Bespoke-Stratos-7B、DeepSeek-R1-Distill-Qwen-7B與DeepSeek-R1-Distill-Llama-8B，甚至在Math-500測試中超越OpenAI o1-mini。

Phi-4-mini-reasoning也在Azure AI Foundry、Hugging Face上公開。

微軟表示，Phi模型已經用於Copilot+ PC上，像是經過為NPU優化的Phi Silica變種已用在支援Click to Do等AI功能。微軟預告，Phi-4-reasoning和mini版都會針對Phi Silica的低位元優化（low-bit optimizations）進行調整，目的是讓它們能夠直接在新一代PC的NPU上執行。這意謂它們不再完全依賴雲端資源，而是能本地運作，提高AI回應的速度與隱私保護。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签