微軟本周宣布推出可在桌機或邊緣裝置執行的38億參數推理模型Phi-4-mini-flash-reasoning,以新的混合架構提升效能,低延遲性與推理能力兼備。
Phi-4-mini-flash-reasoning是為運算、記憶體有限,且延遲性容忍度低的情境而設計,它可在邊緣裝置、行動裝置或資源受限的環境中執行進階推理。Phi-4-mini-flash-reasoning是Phi-4-mini的最新模型,同為38億參數,支援64K token context length,並以高品質合成資料微調,以提供邏輯密集(logic-intensive)的穩定效能,適合注重即時性的邏輯化應用等教學應用場景。
有興趣的用戶可以加入Azure AI Foundry使用Phi-4-mini-flash-reasoning。
雖然Phi-4-mini-flash-reasoning是源於Phi-4-mini,但是它採用了新的decoder-hybrid-decoder架構名為SambaY。SambaY的重要創新是GMU(Gated Memory Unit),是一種在不同層之間共享表示(representations)的有效機制。技術而言,這個架構有個self-decoder,後者整合了Mamba(一種狀態空間模型)和稀疏注意力(Sliding Window Attention,SWA),該架構另外還有一層全注意力層以及Cross-decoder,這個Cross-decoder可和GMU運作,達到效率與性能的平衡。
簡單而言,新的SambaY架構可提升解碼效率、保持線性預處理時間複雜度,意謂提升擴充性、並改善長上下文檢索的執行效能(更適合長文本處理任務)。
和所有Phi-4模型一樣,Phi-4-mini-flash-reasoning可部署在單一GPU的機器上,不過它更優於Phi-4-mini-reasoning之處在於,在長上下文生成及低延遲推理任務Phi-4-mini-flash-reasoning具備更低延遲性和更高吞吐量。在一項測試中,Phi-4-mini-flash-reasoning延遲性縮短2倍有餘,而資料吞吐量最高可提高10倍。而在AIME24、AIME25、MATH-500和GPQA Diamond等標竿測試中,Phi-4-mini-flash-reasoning的跑分成果都比Phi-4-mini-reasoning好,也優於其他2倍參數規模的模型,如DeepSeek-R1-Distill -Qwen 1.5B、Bespoke -Stratos-7B、OpenThinker-7B等。
微軟說Phi-4-mini-flash-reasoning高吞吐量、低延遲性及著重數學推理,很適合特定教育應用,例如需要即時回饋迴圈的適應性學習平臺、本地推理助理如手機學習助理,或是可依據學習者成績動態調整內容難度的互動式教學系統。