IT之家 02月26日
微软开源多模态 AI Agent“Magma”:购物时可自动下单,还能推测视频人物行为
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软开源了多模态AI Agent基础模型Magma,它具备跨数字和物理世界的多模态能力,可以处理图像、视频、文本等多种数据类型。Magma内置心理预测功能,增强了对未来视频帧中时空动态的理解,能够准确推测视频中人物或物体的意图和未来行为。用户可以使用Magma自动下电商订单、查询天气,甚至操作实体机器人或在下象棋时获得帮助。该模型可以帮助AI驱动的助手或机器人理解周围环境并采取行动,适应数字和物理环境中的新任务。

🤖 **多模态能力:** Magma 能够处理图像、视频、文本等多种类型的数据,使其能够理解和操作复杂环境。

🧠 **心理预测功能:** Magma 内置心理预测功能,可以增强对未来视频帧中时空动态的理解,准确推测视频中人物或物体的意图和未来行为。

🛒 **应用场景广泛:** Magma 可以应用于电商订单、天气查询、实体机器人操作、象棋辅助等多种场景,具有很高的实用价值。

🏡 **助力AI助手和机器人:** Magma 能够帮助AI驱动的助手或机器人理解周围环境并采取相应行动,例如学习整理物品或生成用户界面导航说明。

IT之家 2 月 26 日消息,北京时间今日凌晨,微软在官网开源了多模态 AI Agent 基础模型 ——Magma。与传统 Agent 相比,Magma 具备跨数字、物理世界的多模态能力,能自动处理图像、视频、文本等不同类型数据,此外,Magma 还能内置了心理预测功能,增强了对未来视频帧中时空动态的理解能力,能够准确推测视频中人物或物体的意图和未来行为。

用户可以用 Magma 来自动下电商订单、查询天气;也可以自动操作实体机器人,或者在下真实象棋时获得帮助。

根据官方介绍,Magma 能够帮助 AI 驱动的助手或机器人理解周围环境并采取相应行动。例如,它可以帮助家用机器人学习如何整理以前从未见过的物品,或帮助虚拟助手为不熟悉的任务生成逐步的用户界面导航说明

Magma 是能够适应数字和物理环境中新任务的 VLA(IT之家注:视觉语言动作)基础模型之一,能够有效地从海量的公开视觉和语言数据中学习知识,从而融合语言、空间和时间智能,应对数字和物理世界中的复杂任务和环境。

IT之家附开源链接:https://microsoft.github.io/Magma/

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Magma 多模态AI AI Agent 微软 开源
相关文章