Hugging Face開源機器人模型SmolVLA　可跑在Mac電腦上

Hugging Face積極拓展機器人業務，繼公布二款低成本機器人後，上周再開源一款4.5億參數量的機器人模型SmolVLA，號稱能執行在消費硬體如Mac電腦上。

相較於AI快速進步，機器人進展緩慢許多，這是因為欠缺高品質多元資料，及協助機器人像人類一樣思考和行動的模型。為解決這個問題，產業界最近開始重視視覺語言行動（vision-language-action，VLA）模型，這類模型希望在單一模型中整合知覺、語言理解和行動預測能力，並輸出相應的機器人行動。惟此類模型主要是專屬模型，其訓練通常要求昂貴的硬體、多種工程資源及大規模私有資料集，對研究社群取用有很高的門檻。

因此Hugging Face釋出SmolVLA，希望能以這個開源、以公開資料集訓練，且能執行在消費硬體的輕量模型，推動VLA普及化，加速通用型機器代理人的研究。

在訓練時，SmolVLA是以一般操作資料預訓練，再以特定任務專用資料進行後訓練，以實現更強的適應能力。在模型架構上，SmolVLA結合了Transformer及flow-matching解碼器，並採用4種技術，包括加速視覺模型推理速度：在視覺模型中跳過一半層數，以加速推論並縮小模型；交錯融合自注意力（self-attention）與交叉注意力（cross-attention）區塊，以強化多模態訊息整合效率；使用較少的視覺token提升處理速度；並選用更輕量的SmolVLM2來預訓練，降低硬體需求。

即便訓練集僅包含不到3萬筆任務紀錄，遠少於其他視覺語言代理（VLA）模型，但Hugging Face說，SmolVLA在模擬與實體場景中的表現仍與大型模型相當，甚至超越。

此外，SmolVLA引入非同步推理架構（asynchronous inference stack），將感知（視覺與聽覺理解）與動作執行解耦，有利於讓機器人在環境快速變化時更迅速做出反應，有效提升機器人的實用性。

最後訓練出的SmolVLA-450M可執行在搭載消費級GPU的硬體甚至MacBook上。而搭配SmolVLA-450M的機器人，則包括Hugging Face自己的平價機器人機型，如SO-100、SO-101、LeKiwi等。

而在標竿測試中，Hugging Face強調SmolVLA效能表現優異，其中在LIBERO、Meta-World模擬標竿測試中結果優於更大的模型，如Octo、OpenVLA，而在實際機器人SO100和SO101的抓取與放置、堆疊、分類的能力測試中，以SmolVLA的效能較好，而在SO101，SmolVLA也表現更好的泛化（generalization）能力。而非同步推論將執行和推論解耦，可使機器人在移動時反應更快，該公司強調支援提升30%速度及2倍的任務輸出。

SmolVLA基礎模型在Hugging Face平臺釋出。訓練方法則在GitHub公布。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签