IT之家 02月27日
微软 Phi-4 多模态及迷你模型上线,语音视觉文本全能
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软近日发布了Phi-4家族的两款新模型:Phi-4多模态和Phi-4迷你。Phi-4多模态是微软首款集成语音、视觉和文本处理的统一架构多模态语言模型,拥有56亿参数,在多项基准测试中表现优于谷歌Gemini 2.0 Flash等模型,在语音和视觉任务中均表现出色。Phi-4迷你模型专注于文本任务,参数量为38亿,在文本推理、数学计算等方面超越多款大型语言模型。两款模型均经过安全测试和优化,可通过ONNX Runtime部署到设备端,目前已在Azure AI Foundry等平台上供开发者使用,标志着高效AI技术的重大进步。

🗣️Phi-4 多模态模型是微软首款集成语音、视觉和文本处理的统一架构多模态语言模型,参数量达 56 亿,代表了AI技术在多模态融合方面的重大突破。

🥇在多项基准测试中,Phi-4 多模态的表现超越了谷歌的 Gemini 2.0 Flash 等先进模型,尤其在自动语音识别(ASR)方面,在 Hugging Face OpenASR 排行榜上以 6.14% 的词错误率位居榜首,显示了其强大的语音处理能力。

🧮Phi-4 迷你模型专注于文本任务,参数量为 38 亿,在文本推理、数学计算、编程、指令遵循和函数调用等任务中表现优异,超越了多款流行的大型语言模型,证明了其在文本理解和生成方面的卓越性能。

🚀Phi-4 系列模型均可通过 ONNX Runtime 部署到设备端,实现跨平台使用,适用于低成本和低延迟场景,这大大扩展了其应用范围,使得更多开发者和用户能够利用其强大的AI能力。

IT之家 2 月 27 日消息,微软于 2024 年 12 月发布了 Phi-4,这是一款在同类产品中表现卓越的小型语言模型(SLM)。今日,微软进一步扩展 Phi-4 家族,推出了两款全新模型:Phi-4 多模态(Phi-4-multimodal)和 Phi-4 迷你(Phi-4-mini)。

Phi-4 多模态模型是微软首款集成语音、视觉和文本处理的统一架构多模态语言模型,参数量达 56 亿。在多项基准测试中,Phi-4 多模态的表现优于其他现有的先进全模态模型,例如谷歌的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite。

在语音相关任务中,Phi-4 多模态在自动语音识别(ASR)和语音翻译(ST)方面超越了 WhisperV3 和 SeamlessM4T-v2-Large 等专业语音模型。微软表示,该模型在 Hugging Face OpenASR 排行榜上以 6.14% 的词错误率位居榜首。

在视觉相关任务中,Phi-4 多模态在数学和科学推理方面表现出色。在文档理解、图表理解、光学字符识别(OCR)和视觉科学推理等常见多模态能力方面,该模型与 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等流行模型相媲美甚至超越。

IT之家注意到,Phi-4 迷你模型则专注于文本任务,参数量为 38 亿。其在文本推理、数学计算、编程、指令遵循和函数调用等任务中表现优异,超越了多款流行的大型语言模型。

为确保新模型的安全性和可靠性,微软邀请了内部和外部安全专家进行测试,并采用了微软人工智能红队(AIRT)制定的策略。经过进一步优化后,Phi-4 迷你和 Phi-4 多模态模型均可通过 ONNX Runtime 部署到设备端,实现跨平台使用,适用于低成本和低延迟场景。

目前,Phi-4 多模态和 Phi-4 迷你模型已在 Azure AI Foundry、Hugging Face 和 NVIDIA API 目录中上线,供开发者使用。

Phi-4 系列新模型的推出,标志着高效 AI 技术的重大进步,为各类人工智能应用带来了强大的多模态和文本处理能力。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Phi-4 多模态 人工智能 语言模型
相关文章