微软研究院发布了名为Magma的多模态人工智能代理基础模型,该模型具备卓越的视觉与语言理解能力,能够直接执行用户界面(UI)操作和机器人控制任务。Magma突破了传统视觉语言模型仅能进行静态理解的局限,实现了在数字与物理环境中进行交互操作。该模型采用Set-of-Mark(SoM)技术,通过标记可操作对象,使AI能够准确理解影像中的互动元素,并做出相应动作。同时,Trace-of-Mark(ToM)技术让AI能够学习时序动作,预测未来行为,提升在动态场景中的决策能力。在多项测试中,Magma在UI操作和机器人操控方面均表现出色,展现了强大的零样本和少样本学习能力。
🤖 **Set-of-Mark (SoM)技术**: Magma通过SoM技术标记UI按钮或机械手臂等可操作对象,使AI能够准确理解影像中的互动元素,从而执行诸如点击按钮等复杂操作流程。在机器人领域,SoM帮助AI判断物体位置与特性,控制机械手臂稳定地抓取、移动物品。
⏳ **Trace-of-Mark (ToM)技术**: ToM技术通过标记影像中的移动轨迹,使AI能够理解物体在时间轴上的变化,预测未来动作。例如,判断机械手臂的最佳移动路径,或分析影片中人物的行为模式,从而更精确地规划下一步动作。相比传统方法,ToM使用更少的Token,却能捕捉更长时间范围的变化。
🥇 **优异的性能表现**: Magma在Mind2Web和AITW测试中展现了高准确率,证明其能够操作复杂的网页与移动设备UI。在机器人操控方面,Magma在WidowX和LIBERO测试中超越了OpenVLA等现有模型,成功执行软件操控与拾取放置任务,并在已知与未知情境下表现出良好的泛化能力。
✨ **强大的零样本学习能力**: Magma的强项在于其零样本与少样本学习能力,这意味着它可以直接应用于未曾见过的环境,而无需额外的微调。测试显示,Magma在UI操作与机器人任务中,都能在零样本情境下执行完整任务。
🤔 **空间推理能力**: 在空间推理测试中,Magma甚至超越了GPT-4o,尤其是在GPT-4o仍然面临挑战的空间推理问题上,Magma尽管预训练资料较少,却能更好地回答相关问题。
微軟研究院發表Magma,這是一款針對多模態人工智慧代理設計的基礎模型。Magma具備視覺與語言理解能力,能夠直接執行UI操作與機器人控制,突破了傳統視覺語言模型僅限於靜態理解的限制。微軟強調,Magma單一模型即可處理數位與物理環境中的互動任務,且不需特定領域微調,就展現出優於現有專用模型的性能。Magma的核心技術是Set-of-Mark(SoM),透過標記可操作物件,如UI按鈕或機器手臂,讓人工智慧能夠準確理解影像中的互動元素,進而做出適當動作,像是Magma能夠在UI操作中辨識可點擊的按鈕,並執行指令來完成複雜的操作流程。在機器人領域,SoM讓人工智慧能夠判斷環境中的物體位置與特性,控制機械手臂穩定執行物品抓取、移動等任務。此外,Magma也運用Trace-of-Mark(ToM) 技術,該技術重點在於學習時序動作,藉由標記影像中的移動軌跡,讓人工智慧理解物件在時間軸上的變化。ToM讓Magma能夠預測未來動作,例如判斷機器手臂在操作過程中的最佳移動路徑,或分析影片中人物的行為模式,更精確地規畫下一步動作。相比傳統逐幀預測方法,ToM使用更少的Token,但能捕捉更長時間範圍的變化,提升人工智慧在動態場景中的決策能力,並降低環境雜訊的影響。在多項基準測試中,Magma表現優於現有模型。在UI操作領域,在Mind2Web和AITW測試中達成高準確率,證明其能夠操作複雜的網頁與行動裝置UI。在機器人操控方面,Magma在WidowX和LIBERO測試超越現有的機器人視覺語言模型OpenVLA,成功執行軟體操控與拾取放置任務,並在已知與未知情境下展現良好的泛化能力。Magma的強項在於零樣本與少樣本學習能力,能夠直接應用於未見過的環境,而不需要額外微調。測試顯示,Magma在UI操作與機器人任務中,都能夠在零樣本情境下執行完整任務。除了UI操作與機器人應用,Magma在視覺問答、時序推理等任務上也表現出色。在空間推理測試中,其表現超越GPT-4o,微軟提到,空間推理評估對於GPT-4o來說仍然是具有挑戰性的問題,但Magma儘管預訓練資料少得多,卻能更好地回答這類問題。