微软发布 Phi-4-mini-flash-reasoning 端侧 AI 模型：10 倍吞吐量，推理能力升级

IT之家 07月11日 11:58

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

微软推出了Phi-4-mini-flash-reasoning小语言模型，专注于增强端侧AI的数学和逻辑推理能力。该模型特别适用于资源受限的环境，如边缘设备和移动应用。Phi-4-mini-flash-reasoning采用了创新的SambaY架构，其中Gated Memory Unit（GMU）组件提高了信息共享效率，从而提升了模型的运行效率。与之前的Phi模型相比，新模型在吞吐量上提升了高达10倍，延迟降低了1/2到1/3，并且能够处理更长的输入文本。目前，Phi-4-mini-flash-reasoning已在Azure AI Foundry、NVIDIA API Catalog和Hugging Face上发布。

💡Phi-4-mini-flash-reasoning的核心优势在于其在资源受限环境下的出色表现。这款模型特别为边缘设备、移动应用和嵌入式系统设计，旨在提供先进的推理能力。

⚙️该模型采用了创新的SambaY架构，其中关键组件Gated Memory Unit（GMU）能够高效地在模型内部共享信息，从而显著提升模型的效率。

🚀在性能方面，Phi-4-mini-flash-reasoning的吞吐量最高可提升10倍，这意味着在相同时间内可以完成更多任务。同时，延迟也降低至其他Phi模型的1/2到1/3，提升了响应速度。

📝Phi-4-mini-flash-reasoning能够处理非常长的输入，这使得它在处理长文本或对话时具有优势。

🌐Phi-4-mini-flash-reasoning模型已在Azure AI Foundry、NVIDIA API Catalog和Hugging Face等平台上提供。

IT之家 7 月 11 日消息，科技媒体 NeoWin 昨日（7 月 10 日）发布博文，报道称微软推出 Phi-4-mini-flash-reasoning 小语言模型，重点提升端侧 AI 模型的数学和逻辑推理能力。

Phi-4-mini-flash-reasoning 的主要优势在于，它能够在边缘设备、移动应用和嵌入式系统等资源不足的场景下，引入先进的推理功能。

在架构方面，Phi-4-mini-flash-reasoning 创新引入了 SambaY 架构，而该架构的一大亮点，就是名为 Gated Memory Unit（GMU）的组件，它能够高效地在模型的内部之间共享信息，从而提高模型的效率。

这些改进让模型能够更快地生成答案和完成任务，即使面对非常长的输入也能应对自如，Phi 模型还能处理大量数据，理解非常长的文本或对话。

在性能方面，相比较其它 Phi 模型，Phi-4-mini-flash-reasoning 的吞吐量最高提升 10 倍，这意味着在给定的时间内，Phi-4-mini-flash-reasoning 可以完成更多的工作。

它可以在相同的时间内处理 10 倍多的请求或生成 10 倍多的文本，这对于实际应用来说是一个巨大的改进，此外，延迟也降低至其它 Phi 模型的 1/2~1/3。IT之家附上相关性能数据如下：

Phi-4-mini-flash-reasoning 新型模型已在 Azure AI Foundry、NVIDIA API Catalog 和 Hugging Face 上线。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签