微软深夜发布SambaY架构，Phi-4min加速10倍推理

PaperAgent 07月15日 17:57

微软基于Phi-4-mini模型，针对数学问题解决和多跳问答等密集推理任务进行了优化，推出了Phi-4-mini-Flash-Reasoning 3B模型。该模型扩展了Phi-4-mini的token数量至200064，并采用新型SambaY解码器-混合-解码器架构，支持64K token上下文长度，显著提升长上下文任务的运行速度，比前代产品快10倍。SambaY架构的核心创新是门控内存单元（GMU），通过在层间共享表示，提高解码效率，增强长上下文性能和可扩展性。

🔹Phi-4-mini-Flash-Reasoning 3B模型在Phi-4-mini基础上进行微调，专为数学问题解决和多跳问答等密集推理任务设计，扩展了token数量至200064。

🔸SambaY解码器-混合-解码器架构是核心创新，支持长达64K token的上下文长度，使模型在长上下文任务中运行速度比前代产品快10倍。

🔄门控内存单元（GMU）是SambaY架构的关键，通过在层间共享表示，提高解码效率，同时保持线性的预归档时间复杂度，增强可扩展性。

🚀SambaY架构显著提升了长上下文检索性能，吞吐量提高多达10倍，在长输入、段短输出及短输出长输入的场景中均表现出优秀的低延迟性能。

🔗Phi-4-mini-Flash-Reasoning 3B模型性能接近DeepSeek-R1-Distill-Qwen-7B，展示了其在密集推理任务中的强大能力。

CourseAI 2025-07-15 11:42 湖北

微软在Phi-4-mini 的版本基础上，针对数学问题解决和多跳问答等密集推理任务，针对高质量的合成数据微调出Phi-4-mini-Flash-Reasoning 3B模型。

将Phi-4-mini扩展到了

200064

tokens。

采用 Microsoft 的新型 SambaY 解码器-混合-解码器架构构建，支持 64K token上下文长度，提供可靠的逻辑密集型性能部署，并且在长上下文任务中的运行速度比其前代产品快 10×。

Phi-4-mini-flash-reasoning 架构Phi-4-mini-flash-reasoning 的核心：新引入的解码器-混合-解码器架构 SambaY。

SambaY核心创新是门控内存单元（GMU），是一种简单而有效的机制，用于在层之间共享表示。

该架构包括一个自解码器，它结合了 Mamba（一种状态空间模型）和滑动窗口注意力（SWA），以及一个完整的注意力单层。

还涉及一个交叉解码器，该解码器将昂贵的交叉注意力层与新的高效 GMU 交错。这种带有 GMU 模块的新架构大大提高了解码效率，提高了长上下文检索性能，并使该架构能够在各种任务中提供卓越的性能。

SambaY 架构的主要优点包括：

提高解码效率

保持线性的预归档时间复杂度

提高了可扩展性并增强了长上下文性能

吞吐量提高多达 10 倍

这张图展示了SambaY架构在长上下文情况下，有非常强的低延时性能。长输入、段短输出；短输出入、长输都表现出了优秀的低延迟性能。

Phi-4-mini-Flash-Reasoning 3B模型快要逼近 DeepSeek-R1-Distill-Qwen-7B了

https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning
https://arxiv.org/pdf/2507.06607

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签