Meta推出世界模型V-JEPA 2，擁有先進的視覺理解和預測性能

①Meta推出開源模型V-JEPA 2，助AI理解3D環境和物理世界運作；②V-JEPA 2擁有12億參數，經100萬小時視頻訓練，擁有先進的視覺理解和預測性能。

財聯社6月12日訊（編輯牛佔林）美東時間週三， $Meta Platforms (META.US)$ 推出了一款新的開源模型V-JEPA 2，可以讓人工智能更好地理解3D環境並推理物理世界的運作規律。

Meta聲稱，V-JEPA 2是一款世界模型，可以幫助機器人和其他人工智能主體理解物理世界，並預測物理世界將如何對它們的行動做出反應。

據悉，這種被稱爲世界模型的系統從物理世界的邏輯中汲取靈感，並按照現實世界的規則構建內部虛擬環境，從而讓人工智能能夠以更接近人類的方式進行學習、規劃和決策。

Meta表示，V-JEPA 2是一個擁有12億參數的模型，經過了超過100萬小時的視頻訓練，在物理世界中實現了最先進的視覺理解和預測性能。

例如，在Meta的新模型中，V-JEPA 2可以識別從桌子上滾下來的球會掉下來，或者隱藏在視野之外的物體不會消失。

Meta認爲V-JEPA 2在自動駕駛汽車和送貨機器人等方面的應用具有很多優勢，因爲它們需要在複雜多變的環境中安全地工作。

與依賴大量標記數據或視頻片段的模型不同，V-JEPA 2通過簡化後的「潛在空間」進行推理，以理解物體是如何移動、相互作用以及如何響應的。

根據Meta的說法，V-JEPA 2比英偉達的Cosmos模型快30倍，後者也試圖發展與物理世界相關的人工智能。然而，Meta可能會根據不同於英偉達的基準來評估自己的模型。

Meta首席人工智能科學家Yann LeCunn聲稱，讓機器理解物理世界與讓它們理解語言是截然不同的。「世界模型提供了一個虛擬的、簡化版的現實世界，人工智能可以參考它來理解世界，預測其行爲的後果，因此它將能夠計劃一個行動方案來完成給定的任務。」

LeCunn補充說：「我們相信，世界模型將爲機器人技術開啓一個新時代，讓現實世界中的人工智能助手能夠在不需要海量訓練數據的情況下，幫助人們完成家務和體力勞動。」

編輯/rice

Fish AI Reader