Hugging Face積極拓展機器人業務,繼公布二款低成本機器人後,上周再開源一款4.5億參數量的機器人模型SmolVLA,號稱能執行在消費硬體如Mac電腦上。
相較於AI快速進步,機器人進展緩慢許多,這是因為欠缺高品質多元資料,及協助機器人像人類一樣思考和行動的模型。為解決這個問題,產業界最近開始重視視覺語言行動(vision-language-action,VLA)模型,這類模型希望在單一模型中整合知覺、語言理解和行動預測能力,並輸出相應的機器人行動。惟此類模型主要是專屬模型,其訓練通常要求昂貴的硬體、多種工程資源及大規模私有資料集,對研究社群取用有很高的門檻。
因此Hugging Face釋出SmolVLA,希望能以這個開源、以公開資料集訓練,且能執行在消費硬體的輕量模型,推動VLA普及化,加速通用型機器代理人的研究。
在訓練時,SmolVLA是以一般操作資料預訓練,再以特定任務專用資料進行後訓練,以實現更強的適應能力。在模型架構上,SmolVLA結合了Transformer及flow-matching解碼器,並採用4種技術,包括加速視覺模型推理速度:在視覺模型中跳過一半層數,以加速推論並縮小模型;交錯融合自注意力(self-attention)與交叉注意力(cross-attention)區塊,以強化多模態訊息整合效率;使用較少的視覺token提升處理速度;並選用更輕量的SmolVLM2來預訓練,降低硬體需求。
即便訓練集僅包含不到3萬筆任務紀錄,遠少於其他視覺語言代理(VLA)模型,但Hugging Face說,SmolVLA在模擬與實體場景中的表現仍與大型模型相當,甚至超越。
此外,SmolVLA引入非同步推理架構(asynchronous inference stack),將感知(視覺與聽覺理解)與動作執行解耦,有利於讓機器人在環境快速變化時更迅速做出反應,有效提升機器人的實用性。
最後訓練出的SmolVLA-450M可執行在搭載消費級GPU的硬體甚至MacBook上。而搭配SmolVLA-450M的機器人,則包括Hugging Face自己的平價機器人機型,如SO-100、SO-101、LeKiwi等。
而在標竿測試中,Hugging Face強調SmolVLA效能表現優異,其中在LIBERO、Meta-World模擬標竿測試中結果優於更大的模型,如Octo、OpenVLA,而在實際機器人SO100和SO101的抓取與放置、堆疊、分類的能力測試中,以SmolVLA的效能較好,而在SO101,SmolVLA也表現更好的泛化(generalization)能力。而非同步推論將執行和推論解耦,可使機器人在移動時反應更快,該公司強調支援提升30%速度及2倍的任務輸出。
SmolVLA基礎模型在Hugging Face平臺釋出。訓練方法則在GitHub公布。