PaperAgent 07月15日 17:57
微软深夜发布SambaY架构,Phi-4min加速10倍推理
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软基于Phi-4-mini模型,针对数学问题解决和多跳问答等密集推理任务进行了优化,推出了Phi-4-mini-Flash-Reasoning 3B模型。该模型扩展了Phi-4-mini的token数量至200064,并采用新型SambaY解码器-混合-解码器架构,支持64K token上下文长度,显著提升长上下文任务的运行速度,比前代产品快10倍。SambaY架构的核心创新是门控内存单元(GMU),通过在层间共享表示,提高解码效率,增强长上下文性能和可扩展性。

🔹Phi-4-mini-Flash-Reasoning 3B模型在Phi-4-mini基础上进行微调,专为数学问题解决和多跳问答等密集推理任务设计,扩展了token数量至200064。

🔸SambaY解码器-混合-解码器架构是核心创新,支持长达64K token的上下文长度,使模型在长上下文任务中运行速度比前代产品快10倍。

🔄门控内存单元(GMU)是SambaY架构的关键,通过在层间共享表示,提高解码效率,同时保持线性的预归档时间复杂度,增强可扩展性。

🚀SambaY架构显著提升了长上下文检索性能,吞吐量提高多达10倍,在长输入、段短输出及短输出长输入的场景中均表现出优秀的低延迟性能。

🔗Phi-4-mini-Flash-Reasoning 3B模型性能接近DeepSeek-R1-Distill-Qwen-7B,展示了其在密集推理任务中的强大能力。

CourseAI 2025-07-15 11:42 湖北

微软在Phi-4-mini 的版本基础上,针对数学问题解决和多跳问答等密集推理任务,针对高质量的合成数据微调出Phi-4-mini-Flash-Reasoning 3B模型。

将Phi-4-mini扩展到了

200064

 tokens。
采用 Microsoft 的新型 SambaY 解码器-混合-解码器架构构建,支持 64K token上下文长度,提供可靠的逻辑密集型性能部署,并且在长上下文任务中的运行速度比其前代产品快 10×。

Phi-4-mini-flash-reasoning 架构Phi-4-mini-flash-reasoning 的核心:新引入的解码器-混合-解码器架构 SambaY。

SambaY核心创新是门控内存单元 (GMU),是一种简单而有效的机制,用于在层之间共享表示。

该架构包括一个自解码器,它结合了 Mamba(一种状态空间模型)和滑动窗口注意力 (SWA),以及一个完整的注意力单层。

还涉及一个交叉解码器,该解码器将昂贵的交叉注意力层与新的高效 GMU 交错。这种带有 GMU 模块的新架构大大提高了解码效率,提高了长上下文检索性能,并使该架构能够在各种任务中提供卓越的性能。

SambaY 架构的主要优点包括:

提高解码效率

保持线性的预归档时间复杂度

提高了可扩展性并增强了长上下文性能

吞吐量提高多达 10 倍

这张图展示了SambaY架构在长上下文情况下,有非常强的低延时性能。长输入、段短输出;短输出入、长输都表现出了优秀的低延迟性能。

Phi-4-mini-Flash-Reasoning 3B模型快要逼近 DeepSeek-R1-Distill-Qwen-7B了

https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning

https://arxiv.org/pdf/2507.06607

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

微软 Phi-4-mini-Flash-Reasoning AI模型 SambaY架构 门控内存单元
相关文章