Meta宣布推出新一代自我監督式學習(Self-supervised Learning,SSL)視覺模型DINOv3,將訓練規模擴展至17億張影像,模型參數達到70億,在多項電腦視覺基準測試中,尤其是語義分割、單一影像深度估測及影片追蹤等密集預測任務上,表現超越前代與多個現有方案,並正式釋出商用授權的程式碼與預訓練骨幹模型,降低開發者在多領域應用上的採用門檻。
DINOv3延續DINO系列在自監督影像表徵學習的核心理念,不依賴人工標註資料,而是透過大規模未標註影像進行訓練,產生高解析度的影像特徵,讓後續的下游任務只需極少標註與輕量微調模組(Lightweight Adapter),即可取得良好的結果。
相較於前一代DINOv2,DINOv3的模型規模擴大為7倍,資料集規模增加12倍,並在不進行骨幹(Backbone)權重微調的情況下,即能支援多種任務,降低了開發與模型推論的成本,特別適用於邊緣運算與同時多任務的部署情境。
在官方公開的評測中,DINOv3在ADE-20K語義分割取得55.9分,優於DINOv2的49.5與SigLIP 2的42.7,而在NYU深度估測中誤差下降至0.309,低於DINOv2的0.372與SigLIP 2的0.494。DAVIS影片追蹤達到83.3,大幅領先其他模型。此外,在ImageNet ReaL分類上,DINOv3以90.4分與SigLIP 2持平,ObjectNet分類雖略低於PE(Perception Encoder),但在iNaturalist 2021精細分類則以89.8分領先。
DINOv3的應用範圍不限於一般網路影像,也能延伸至衛星、醫療與工業影像等標註困難或成本高昂的領域。Meta同步提供一個以MAXAR衛星影像訓練的專用骨幹,並在環境監測領域已有落地案例。世界資源研究所(WRI)使用DINOv3進行林冠高度估計,平均誤差由4.1公尺降至1.2公尺,有助於自動化驗證森林復育成效,加快氣候融資撥付流程,並支持大規模的保育與復育計畫。
Meta此次釋出多種規模的DINOv3骨幹,包括適用於資源受限環境的ConvNeXt版本,並附上部分下游評估模型與範例Notebook,方便開發者在不同任務整合使用。Meta提供DINOv3商用授權,研究單位與企業可在合法框架下將DINOv3整合進產品與服務,加速在醫療診斷、環境監控、自主系統及零售等多個產業的應用落地。