AI & Big Data 12小时前
Hugging Face開源機器人模型SmolVLA 可跑在Mac電腦上
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Hugging Face 发布了开源的 SmolVLA 模型,旨在加速通用型机器人代理人的研究。该模型仅需消费级硬件即可运行,相较于大型 VLA 模型,SmolVLA 在模拟和实际场景中的表现出色,甚至超越了部分大型模型。SmolVLA 结合了 Transformer 和 flow-matching 解码器,通过多种技术优化,实现了更快的推理速度和更强的适应能力。此外,它引入了非同步推理架构,提升了机器人在快速变化环境下的反应速度。SmolVLA 的发布为机器人技术研究提供了新的可能性。

🤖 Hugging Face 为了推动视觉语言行动(VLA)模型普及化,开源了 SmolVLA 模型,该模型可在消费级硬件上运行。

💡 SmolVLA 采用了 Transformer 和 flow-matching 解码器,并通过多项技术优化,包括加速视觉模型推理速度、增强多模态信息整合等,以提升性能。

🚀 SmolVLA 引入了非同步推理架构,将感知与动作执行解耦,使机器人在环境快速变化时能更迅速做出反应,提升实用性。

🏆 在测试中,SmolVLA 在模拟与实体的抓取、放置、堆叠、分类等任务中表现出色,甚至超越了更大的模型,展现了良好的泛化能力。

Hugging Face積極拓展機器人業務,繼公布二款低成本機器人後,上周再開源一款4.5億參數量的機器人模型SmolVLA,號稱能執行在消費硬體如Mac電腦上。

相較於AI快速進步,機器人進展緩慢許多,這是因為欠缺高品質多元資料,及協助機器人像人類一樣思考和行動的模型。為解決這個問題,產業界最近開始重視視覺語言行動(vision-language-action,VLA)模型,這類模型希望在單一模型中整合知覺、語言理解和行動預測能力,並輸出相應的機器人行動。惟此類模型主要是專屬模型,其訓練通常要求昂貴的硬體、多種工程資源及大規模私有資料集,對研究社群取用有很高的門檻。

因此Hugging Face釋出SmolVLA,希望能以這個開源、以公開資料集訓練,且能執行在消費硬體的輕量模型,推動VLA普及化,加速通用型機器代理人的研究。

在訓練時,SmolVLA是以一般操作資料預訓練,再以特定任務專用資料進行後訓練,以實現更強的適應能力。在模型架構上,SmolVLA結合了Transformer及flow-matching解碼器,並採用4種技術,包括加速視覺模型推理速度:在視覺模型中跳過一半層數,以加速推論並縮小模型;交錯融合自注意力(self-attention)與交叉注意力(cross-attention)區塊,以強化多模態訊息整合效率;使用較少的視覺token提升處理速度;並選用更輕量的SmolVLM2來預訓練,降低硬體需求。

即便訓練集僅包含不到3萬筆任務紀錄,遠少於其他視覺語言代理(VLA)模型,但Hugging Face說,SmolVLA在模擬與實體場景中的表現仍與大型模型相當,甚至超越。

此外,SmolVLA引入非同步推理架構(asynchronous inference stack),將感知(視覺與聽覺理解)與動作執行解耦,有利於讓機器人在環境快速變化時更迅速做出反應,有效提升機器人的實用性。

最後訓練出的SmolVLA-450M可執行在搭載消費級GPU的硬體甚至MacBook上。而搭配SmolVLA-450M的機器人,則包括Hugging Face自己的平價機器人機型,如SO-100、SO-101、LeKiwi等。

而在標竿測試中,Hugging Face強調SmolVLA效能表現優異,其中在LIBERO、Meta-World模擬標竿測試中結果優於更大的模型,如Octo、OpenVLA,而在實際機器人SO100和SO101的抓取與放置、堆疊、分類的能力測試中,以SmolVLA的效能較好,而在SO101,SmolVLA也表現更好的泛化(generalization)能力。而非同步推論將執行和推論解耦,可使機器人在移動時反應更快,該公司強調支援提升30%速度及2倍的任務輸出。

SmolVLA基礎模型在Hugging Face平臺釋出訓練方法則在GitHub公布

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Hugging Face SmolVLA 机器人 VLA模型
相关文章