微軟發展自家多模態模型Phi-4-multimodal，56億參數支援裝置端運作

AI & Big Data 02月27日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

微软发布了Phi-4-multimodal，一款具备处理语音、图像与文字能力的小型语言模型（SLM）。该模型已在Azure AI Foundry、Hugging Face及Nvidia API Catalog上线。Phi-4-multimodal不仅提升了多模态整合能力，还强化了语音辨识、视觉理解与推理能力，适用于开发多元人工智能应用。微软强调，该模型针对运算资源受限的环境进行了优化，能够在装置端执行。技术规格上，Phi-4-multimodal具有56亿参数，支援12.8万Token的上下文长度，并在语音处理能力上超越WhisperV3及SeamlessM4T-v2-Large。

🗣️Phi-4-multimodal模型通过统一的神經網路架構，直接对语音、图像和文字进行处理，减少了传统方式中数据转换过程的信息流失，并提升了整体处理效率。与非多模态架构相比，这种方式能更充分利用语音中的语调、语境或背景音等额外信息。

🖼️Phi-4-multimodal的一大亮点在于其卓越的语音处理能力，在语音辨识与语音翻译方面表现出色，在Hugging Face OpenASR排行榜上达到6.14％的字错率（WER），超越了WhisperV3的最佳成绩6.5％。

🧮除了多模态模型，微软还推出了Phi-4-mini，这是一款38亿参数的小型模型，专为文字处理设计，特别适用于程式码生成、数学推理、长文本处理与函式呼叫。它采用分組查詢注意力机制（Grouped-Query Attention），提升计算效率，并支援12.8万Token内容。

☁️与GPT-4等大规模模型不同，Phi-4-multimodal及Phi-4-mini采用较小的参数规模，针对低延遲推理与计算资源受限的场景进行最佳化，适用于边缘设备、嵌入式应用及行动装置，体现了人工智能应用在云端与装置端的多元部署策略。

微軟發表Phi-4-multimodal，這是一款小型語言模型（SLM）具備處理語音、圖像與文字的能力，已於Azure AI Foundry、Hugging Face及Nvidia API Catalog上線。相較於過去的Phi-3.5及Phi-4.0，這次的版本不僅提升了多模態整合能力，也強化了語音辨識、視覺理解與推理能力，適用於開發多元人工智慧應用的場景。微軟強調，Phi-4-multimodal針對運算資源受限的環境進行最佳化，能夠在裝置端執行。

在非多模態架構下，語音輸入通常需先透過語音辨識技術轉換為文字，而影像則可能需透過獨立的視覺模型處理，之後再進行語言理解或跨模態分析。這種方式不僅增加延遲，也無法充分利用語音中的額外資訊，例如語調、語境或背景音。Phi-4-multimodal則透過統一的神經網路架構，直接對語音、圖像和文字進行處理，減少資料轉換過程的資訊流失，並提升整體處理效率。

技術規格上，Phi-4-multimodal具有56億參數，支援12.8萬Token的上下文長度，並透過監督式微調、直接偏好最佳化（DPO）與人類回饋強化學習（RLHF）等方式，提升指令遵循能力與安全性。在語言支援方面，文字處理涵蓋超過20種語言，包括中文、日文、韓文、德文與法文等，語音處理則涵蓋英語、中文、西班牙語、日語等主要語種，圖像處理目前則以英文為主。

Phi-4-multimodal的一大亮點在於語音處理能力，特別是在語音辨識與語音翻譯方面，已超越WhisperV3及SeamlessM4T-v2-Large，並在Hugging Face OpenASR排行榜上達到只有6.14％的字錯率（WER），優於WhisperV3的最佳成績6.5％。此外，這款模型也在數學與科學推理測試中表現出色，並在OCR、圖表理解與文件推理等應用可與其他大型模型競爭，如Gemini-2.0-Flash Lite與Claude-3.5-Sonnet。

除了多模態模型，微軟也推出Phi-4-mini，這是一款38億參數的小型模型，專注於文字處理，特別適用於程式碼生成、數學推理、長文本處理與函式呼叫。Phi-4-mini採用分組查詢注意力機制（Grouped-Query Attention），提升計算效率，也支援12.8萬Token內容，在同等級的小型語言模型中擁有更強的推理與指令遵循能力。

微軟與OpenAI的合作仍然持續，但在小型語言模型（SLM）領域，微軟也積極發展自家技術，以補足OpenAI大型模型之外的應用需求。與GPT-4等大規模模型不同，Phi-4-multimodal及Phi-4-mini採用較小的參數規模，針對低延遲推理與計算資源受限的場景進行最佳化，適用於邊緣設備、嵌入式應用及行動裝置。這類小型模型的發展，也反映出人工智慧應用在雲端與裝置端的多元部署策略，讓智慧設備能夠更高效地處理多模態輸入。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签