IT之家 05月01日 15:18
微软发布 Phi-4 系列小语言 AI 推理模型,AIME 2025 跑分超满血版 Deepseek R1
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软推出了Phi-4-reasoning系列推理模型,包含Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning三款,专为复杂推理任务设计。该系列模型延续了小型模型的高效特性,并在推理能力上实现重大突破。通过推理时间扩展技术,擅长处理需要多步骤分解和内部反思的复杂任务,尤其在数学推理和代理型应用中表现突出,具备媲美大型前沿模型的潜力。其中,Phi-4-reasoning和Phi-4-reasoning-plus在数学推理和博士级科学问题测试中表现出色,Phi-4-mini-reasoning则专为计算资源有限的环境设计,适合教育应用。

🚀Phi-4-reasoning系列模型通过监督微调Phi-4,并利用o3-mini生成的高质量“可教导”提示数据集训练,专为复杂推理任务设计,旨在突破小型模型在推理能力上的瓶颈。

➕Phi-4-reasoning-plus增强版通过强化学习进一步提升性能,tokens用量比标准版多1.5倍,支持更高精度,使其在数学推理和博士级科学问题测试中,超越多个大型模型。

💡Phi-4-mini-reasoning专为计算资源有限的环境设计,通过DeepSeek-R1生成的合成数据微调,能在低延迟场景下提供高质量的逐步问题解决方案,适合教育应用、嵌入式辅导和边缘设备部署。

🥇Phi-4-reasoning系列模型在多项数学基准测试中表现出色,甚至在AIME 2025(美国数学奥林匹克资格赛)中击败6710亿参数的DeepSeek-R1满血模型,证明了其强大的推理能力。

IT之家 5 月 1 日消息,微软昨日(4 月 30 日)发布 Phi-4-reasoning 系列推理模型,通过监督微调 Phi-4,并利用 o3-mini 生成的高质量“可教导”提示数据集训练,专为复杂推理任务设计。

IT之家援引博文介绍,微软本次共推出 Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning 三款模型,官方称该系列模型不仅延续了小型模型的高效特性,还在推理能力上实现重大突破。

该系列模型通过推理时间扩展(inference-time scaling)技术,擅长处理需要多步骤分解和内部反思的复杂任务,尤其在数学推理和代理型应用中表现突出,具备媲美大型前沿模型的潜力。

Phi-4-reasoning 是一款拥有 140 亿参数的开源推理模型,通过监督微调(Supervised Fine-Tuning,SFT)Phi-4,结合 OpenAI o3-mini 的高质量推理演示数据,并充分利用额外计算资源,生成详细的推理链条。

Phi-4-reasoning-plus 增强版通过强化学习(Reinforcement Learning,RL)进一步提升性能,tokens 用量比标准版多 1.5 倍,支持更高精度。

两款模型在数学推理和博士级科学问题测试中,均超越 OpenAI o1-mini 和 DeepSeek-R1-Distill-Llama-70B,甚至在 AIME 2025(美国数学奥林匹克资格赛)中击败 6710 亿参数的 DeepSeek-R1 满血模型。

Phi-4-mini-reasoning 专为计算资源有限的环境设计,是一款基于 Transformer 的紧凑型语言模型,优化用于数学推理。

该模型通过 DeepSeek-R1 生成的合成数据微调,能在低延迟场景下提供高质量的逐步问题解决方案。这款模型覆盖从中学到博士级的百万级多样化数学问题,非常适合教育应用、嵌入式辅导和边缘设备部署。

在多项数学基准测试中,其 3.8 亿参数的表现超越 OpenThinker-7B 和 Llama-3.2-3B-instruct 等更大模型,甚至在部分测试中接近 OpenAI o1-mini 的水平。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Phi-4-reasoning 推理模型 微软 数学推理 人工智能
相关文章