AI & Big Data 02月27日
微軟發展自家多模態模型Phi-4-multimodal,56億參數支援裝置端運作
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软发布了Phi-4-multimodal,一款具备处理语音、图像与文字能力的小型语言模型(SLM)。该模型已在Azure AI Foundry、Hugging Face及Nvidia API Catalog上线。Phi-4-multimodal不仅提升了多模态整合能力,还强化了语音辨识、视觉理解与推理能力,适用于开发多元人工智能应用。微软强调,该模型针对运算资源受限的环境进行了优化,能够在装置端执行。技术规格上,Phi-4-multimodal具有56亿参数,支援12.8万Token的上下文长度,并在语音处理能力上超越WhisperV3及SeamlessM4T-v2-Large。

🗣️Phi-4-multimodal模型通过统一的神經網路架構,直接对语音、图像和文字进行处理,减少了传统方式中数据转换过程的信息流失,并提升了整体处理效率。与非多模态架构相比,这种方式能更充分利用语音中的语调、语境或背景音等额外信息。

🖼️Phi-4-multimodal的一大亮点在于其卓越的语音处理能力,在语音辨识与语音翻译方面表现出色,在Hugging Face OpenASR排行榜上达到6.14%的字错率(WER),超越了WhisperV3的最佳成绩6.5%。

🧮除了多模态模型,微软还推出了Phi-4-mini,这是一款38亿参数的小型模型,专为文字处理设计,特别适用于程式码生成、数学推理、长文本处理与函式呼叫。它采用分組查詢注意力机制(Grouped-Query Attention),提升计算效率,并支援12.8万Token内容。

☁️与GPT-4等大规模模型不同,Phi-4-multimodal及Phi-4-mini采用较小的参数规模,针对低延遲推理与计算资源受限的场景进行最佳化,适用于边缘设备、嵌入式应用及行动装置,体现了人工智能应用在云端与装置端的多元部署策略。

微軟發表Phi-4-multimodal,這是一款小型語言模型(SLM)具備處理語音、圖像與文字的能力,已於Azure AI Foundry、Hugging Face及Nvidia API Catalog上線。相較於過去的Phi-3.5及Phi-4.0,這次的版本不僅提升了多模態整合能力,也強化了語音辨識、視覺理解與推理能力,適用於開發多元人工智慧應用的場景。微軟強調,Phi-4-multimodal針對運算資源受限的環境進行最佳化,能夠在裝置端執行。

在非多模態架構下,語音輸入通常需先透過語音辨識技術轉換為文字,而影像則可能需透過獨立的視覺模型處理,之後再進行語言理解或跨模態分析。這種方式不僅增加延遲,也無法充分利用語音中的額外資訊,例如語調、語境或背景音。Phi-4-multimodal則透過統一的神經網路架構,直接對語音、圖像和文字進行處理,減少資料轉換過程的資訊流失,並提升整體處理效率。

技術規格上,Phi-4-multimodal具有56億參數,支援12.8萬Token的上下文長度,並透過監督式微調、直接偏好最佳化(DPO)與人類回饋強化學習(RLHF)等方式,提升指令遵循能力與安全性。在語言支援方面,文字處理涵蓋超過20種語言,包括中文、日文、韓文、德文與法文等,語音處理則涵蓋英語、中文、西班牙語、日語等主要語種,圖像處理目前則以英文為主。

Phi-4-multimodal的一大亮點在於語音處理能力,特別是在語音辨識與語音翻譯方面,已超越WhisperV3及SeamlessM4T-v2-Large,並在Hugging Face OpenASR排行榜上達到只有6.14%的字錯率(WER),優於WhisperV3的最佳成績6.5%。此外,這款模型也在數學與科學推理測試中表現出色,並在OCR、圖表理解與文件推理等應用可與其他大型模型競爭,如Gemini-2.0-Flash Lite與Claude-3.5-Sonnet。

除了多模態模型,微軟也推出Phi-4-mini,這是一款38億參數的小型模型,專注於文字處理,特別適用於程式碼生成、數學推理、長文本處理與函式呼叫。Phi-4-mini採用分組查詢注意力機制(Grouped-Query Attention),提升計算效率,也支援12.8萬Token內容,在同等級的小型語言模型中擁有更強的推理與指令遵循能力。

微軟與OpenAI的合作仍然持續,但在小型語言模型(SLM)領域,微軟也積極發展自家技術,以補足OpenAI大型模型之外的應用需求。與GPT-4等大規模模型不同,Phi-4-multimodal及Phi-4-mini採用較小的參數規模,針對低延遲推理與計算資源受限的場景進行最佳化,適用於邊緣設備、嵌入式應用及行動裝置。這類小型模型的發展,也反映出人工智慧應用在雲端與裝置端的多元部署策略,讓智慧設備能夠更高效地處理多模態輸入。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Phi-4-multimodal 多模态模型 小型语言模型 微软AI
相关文章