微軟釋出桌機版推理AI模型Phi-4-mini-flash-reasoning　以新混合架構提升效能

微軟本周宣布推出可在桌機或邊緣裝置執行的38億參數推理模型Phi-4-mini-flash-reasoning，以新的混合架構提升效能，低延遲性與推理能力兼備。

Phi-4-mini-flash-reasoning是為運算、記憶體有限，且延遲性容忍度低的情境而設計，它可在邊緣裝置、行動裝置或資源受限的環境中執行進階推理。Phi-4-mini-flash-reasoning是Phi-4-mini的最新模型，同為38億參數，支援64K token context length，並以高品質合成資料微調，以提供邏輯密集（logic-intensive）的穩定效能，適合注重即時性的邏輯化應用等教學應用場景。

有興趣的用戶可以加入Azure AI Foundry使用Phi-4-mini-flash-reasoning。

雖然Phi-4-mini-flash-reasoning是源於Phi-4-mini，但是它採用了新的decoder-hybrid-decoder架構名為SambaY。SambaY的重要創新是GMU（Gated Memory Unit），是一種在不同層之間共享表示（representations）的有效機制。技術而言，這個架構有個self-decoder，後者整合了Mamba（一種狀態空間模型）和稀疏注意力（Sliding Window Attention，SWA），該架構另外還有一層全注意力層以及Cross-decoder，這個Cross-decoder可和GMU運作，達到效率與性能的平衡。

簡單而言，新的SambaY架構可提升解碼效率、保持線性預處理時間複雜度，意謂提升擴充性、並改善長上下文檢索的執行效能（更適合長文本處理任務）。

和所有Phi-4模型一樣，Phi-4-mini-flash-reasoning可部署在單一GPU的機器上，不過它更優於Phi-4-mini-reasoning之處在於，在長上下文生成及低延遲推理任務Phi-4-mini-flash-reasoning具備更低延遲性和更高吞吐量。在一項測試中，Phi-4-mini-flash-reasoning延遲性縮短2倍有餘，而資料吞吐量最高可提高10倍。而在AIME24、AIME25、MATH-500和GPQA Diamond等標竿測試中，Phi-4-mini-flash-reasoning的跑分成果都比Phi-4-mini-reasoning好，也優於其他2倍參數規模的模型，如DeepSeek-R1-Distill -Qwen 1.5B、Bespoke -Stratos-7B、OpenThinker-7B等。

微軟說Phi-4-mini-flash-reasoning高吞吐量、低延遲性及著重數學推理，很適合特定教育應用，例如需要即時回饋迴圈的適應性學習平臺、本地推理助理如手機學習助理，或是可依據學習者成績動態調整內容難度的互動式教學系統。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签