AI & Big Data 01月10日
微軟以MIT授權在Hugging Face開源140億參數Phi-4模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软开源了其Phi系列第四代模型Phi-4,这是一个拥有140亿参数的小型语言模型。Phi-4在Hugging Face上以MIT许可证开源,开发者可以自由使用、修改和散布。该模型在科学和数学领域的基准测试中表现出色,甚至超越了一些大型模型,如Meta的Llama 3 70B和GPT-4o。Phi-4采用精简的解码器架构,降低了运算资源的需求,使其更适合在资源受限的环境中部署。微软通过DPO和SFT等技术对Phi-4进行了强化,提升了其指令遵循能力和内容生成质量。Phi-4的开源丰富了小型语言模型生态,推动了小型模型在边缘计算和移动设备等领域的应用。

🚀Phi-4模型以140亿参数的小型规模,在多项基准测试中展现了与大型模型匹敌的性能,尤其在科学和数学领域表现突出,甚至超越了Meta的Llama 3 70B和GPT-4o。

💡Phi-4采用了精简的解码器架构,大幅降低了对运算资源的需求,使其在部署成本、能源效率和执行速度方面更具优势,特别适合应用于边缘运算和移动设备等资源受限的场景。

🛠️微软通过直接偏好优化(DPO)和监督式微调(SFT)等后训练技术,对Phi-4模型进行了强化,显著提升了其遵循指令的能力、生成内容的质量,并降低了产生有害或不安全输出的风险。

🌐Phi-4的开源,标志着小型语言模型生态的进一步丰富,与Google的Gemma系列、Meta的Llama 3以及阿里巴巴的Qwen等模型共同推动了小型语言模型的发展,使其在实际应用中更具可行性。

原本只在Azure AI Foundry平臺開放的Phi-4模型,現在微軟在Hugging Face上以寬鬆的MIT授權開源,這代表開發者已經可以自由使用、修改和散布該模型,包括LM Studio等語言模型執行工具已經能夠下載並且執行。Phi-4為微軟Phi系列的第四代模型,擁有140億參數,在多項基準測試中展現了與大型模型相匹敵的性能,特別是科學與數學領域。不同於動輒數百億甚至數千億參數的大型語言模型,Phi-4的精簡架構使其對運算資源的需求大幅降低。微軟表示,Phi-4在1,920個Nvidia H100圖形處理器組成的叢集上進行訓練,耗時21天完成,其採用了廣泛使用的Transformer架構,並進一步精簡為僅包含解碼器(Decoder-only)的架構,藉此降低模型進行推論時的運算負擔。根據微軟在Hugging Face上公開的資料,Phi-4在GPQA科學問答及MATH數學題庫兩項基準測試中,超越了Meta具有700億參數的Llama 3.3 70B模型,甚至也比GPT-4o表現更好。微軟也將Phi-4與其他相近規模的模型進行比較,例如阿里巴巴的Qwen 2.5。Phi-4不僅超越了規模相近140億參數的Qwen 2.5,甚至與720億參數的Qwen 2.5版本旗鼓相當。雖然各模型在不同測試中互有領先,但Phi-4展現了小型模型也能達到甚至超越大型模型性能的潛力。Phi-4僅含解碼器的架構影響了其運作模式。相較於標準Transformer模型能分析前後文脈絡來理解詞彙意義,唯解碼器架構模型僅關注當前詞彙之前的文本。這種設計雖能降低運算量,但也可能在需要依賴後文資訊才能準確理解的情境下影響其表現。另一方面,微軟透過直接偏好最佳化(DPO)和監督式微調(SFT)等後訓練技術,對模型進行了強化,提升模型包括遵循指令的能力、生成內容的品質,以及降低產生有害或不安全輸出的風險。Phi-4的開源使小型語言模型生態更加豐富,近年來,Google的Gemma系列與Meta的Llama 3,以及阿里巴巴的Qwen等模型相繼開源,顯示各大科技公司皆積極投入小型語言模型的研發。相較於大型模型,小型語言模型在部署成本、能源效率及執行速度都更具優勢,特別適合應用於邊緣運算、行動裝置等資源受限的情境。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Phi-4 开源模型 小型语言模型 人工智能 解码器架构
相关文章