微软推出了Phi-4-mini-flash-reasoning小语言模型,专注于增强端侧AI的数学和逻辑推理能力。该模型特别适用于资源受限的环境,如边缘设备和移动应用。Phi-4-mini-flash-reasoning采用了创新的SambaY架构,其中Gated Memory Unit(GMU)组件提高了信息共享效率,从而提升了模型的运行效率。与之前的Phi模型相比,新模型在吞吐量上提升了高达10倍,延迟降低了1/2到1/3,并且能够处理更长的输入文本。目前,Phi-4-mini-flash-reasoning已在Azure AI Foundry、NVIDIA API Catalog和Hugging Face上发布。
💡Phi-4-mini-flash-reasoning的核心优势在于其在资源受限环境下的出色表现。这款模型特别为边缘设备、移动应用和嵌入式系统设计,旨在提供先进的推理能力。
⚙️该模型采用了创新的SambaY架构,其中关键组件Gated Memory Unit(GMU)能够高效地在模型内部共享信息,从而显著提升模型的效率。
🚀在性能方面,Phi-4-mini-flash-reasoning的吞吐量最高可提升10倍,这意味着在相同时间内可以完成更多任务。同时,延迟也降低至其他Phi模型的1/2到1/3,提升了响应速度。
📝Phi-4-mini-flash-reasoning能够处理非常长的输入,这使得它在处理长文本或对话时具有优势。
🌐Phi-4-mini-flash-reasoning模型已在Azure AI Foundry、NVIDIA API Catalog和Hugging Face等平台上提供。
IT之家 7 月 11 日消息,科技媒体 NeoWin 昨日(7 月 10 日)发布博文,报道称微软推出 Phi-4-mini-flash-reasoning 小语言模型,重点提升端侧 AI 模型的数学和逻辑推理能力。
Phi-4-mini-flash-reasoning 的主要优势在于,它能够在边缘设备、移动应用和嵌入式系统等资源不足的场景下,引入先进的推理功能。

在架构方面,Phi-4-mini-flash-reasoning 创新引入了 SambaY 架构,而该架构的一大亮点,就是名为 Gated Memory Unit(GMU)的组件,它能够高效地在模型的内部之间共享信息,从而提高模型的效率。
这些改进让模型能够更快地生成答案和完成任务,即使面对非常长的输入也能应对自如,Phi 模型还能处理大量数据,理解非常长的文本或对话。

在性能方面,相比较其它 Phi 模型,Phi-4-mini-flash-reasoning 的吞吐量最高提升 10 倍,这意味着在给定的时间内,Phi-4-mini-flash-reasoning 可以完成更多的工作。
它可以在相同的时间内处理 10 倍多的请求或生成 10 倍多的文本,这对于实际应用来说是一个巨大的改进,此外,延迟也降低至其它 Phi 模型的 1/2~1/3。IT之家附上相关性能数据如下:



Phi-4-mini-flash-reasoning 新型模型已在 Azure AI Foundry、NVIDIA API Catalog 和 Hugging Face 上线。