机器之心 6小时前
刚刚,首个能在机器人上本地运行的具身Gemini来了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌DeepMind推出了Gemini Robotics On-Device,这是首个可以直接部署在机器人上的视觉-语言-动作(VLA)模型。该模型基于Gemini 2.0,可在机器人机体上高效运行,无需持续网络连接,特别适用于对延迟敏感的应用。Gemini Robotics On-Device具备强大的通用灵活性和任务泛化能力,开发者可以通过Gemini Robotics SDK进行评估和微调。该模型能够快速适应新任务,只需少量演示即可,并且可以跨不同机器人形态进行泛化。此外,谷歌还更新了Gemini模型的免费额度,并推出了图像生成模型Imagen 4和Imagen 4 Ultra。

🤖 Gemini Robotics On-Device是谷歌DeepMind推出的首个可以直接部署在机器人上的VLA模型,基于Gemini 2.0。它经过优化,可在机器人机体上高效运行,无需持续的互联网连接,特别适用于对延迟敏感的应用。

💡 该模型具备强大的通用灵活性和任务泛化能力,能够遵循自然语言指令,并完成高度灵巧的任务,如拉开拉链或折叠衣服。即使在本地运行模式下,其泛化性能也优于之前的本地端机器人模型。

🛠️ 开发者可以使用Gemini Robotics SDK评估模型,并在MuJoCo物理模拟器中测试。该模型只需50到100个演示即可快速适应新任务,并且可以适应不同的机器人,如Franka FR3和Apollo人形机器人。

📉 与此同时,谷歌调整了Gemini模型的免费可用额度,并推出了图像生成模型Imagen 4和Imagen 4 Ultra,供用户在谷歌AI Studio中免费试用。

机器之心报道

编辑:Panda


今天,Gemini 家族迎来了一个新成员:Gemini Robotics On-Device。



这是谷歌 DeepMind 首个可以直接部署在机器人上的视觉-语言-动作(VLA)模型,可以帮助机器人更快、更高效地适应新任务和环境,同时无需持续的互联网连接。



从名字也能看出来,Gemini Robotics On-Device 属于 Gemini Robotics 系列。该模型于今年三月发布,基础模型是具备多模态推理能力的 Gemini 2.0。


据介绍,Gemini Robotics On-Device 展现出了强大的通用灵活性和任务泛化能力,并且经过优化,可在机器人机体上高效运行。


由于该模型无需数据网络即可运行,因此它对延迟敏感型应用非常有用,可确保在连接中断或零连接的环境中保持稳健性。


对此,网友自然是好评多多:



对于开发者,谷歌还将发布 Gemini Robotics SDK,可用于轻松评估 Gemini Robotics On-Device 在其任务和环境中的表现。另外,开发者还可使用该 SDK 在 DeepMind 的 MuJoCo 物理模拟器中测试该模型,并快速将其适应到新领域 —— 只需 50 到 100 个演示即可。


顺带一提,加州大学伯克利分校、谷歌 DeepMind、多伦多大学、剑桥大学联合推出的 MuJoCo Playground 刚刚获得了今年的机器人科学与系统会议(RSS 2025)杰出演示论文奖。



论文标题:Demonstrating MuJoCo Playground 

论文地址:https://www.roboticsproceedings.org/rss21/p020.pdf


模型功能和性能


Gemini Robotics On-Device 是用于双臂机器人的基础模型,其设计目标是最大限度地减少计算资源需求。它基于 Gemini Robotics 的任务泛化和灵活性能力,并且:


针对快速运行灵巧操作实验而设计。

可通过微调来提升性能,从而适应新任务。

经过优化,可在本地运行并实现低延迟推理。


DeepMind 进行了不少视觉、语义和行为泛化能力实验,整体来看,Gemini Robotics On-Device 在这些广泛的测试场景中表现强大:能够遵循自然语言指令,并完成诸如拉开袋子拉链或折叠衣服等高度灵巧的任务 —— 所有这些操作均可直接在机器人上运行完成。



即使是本地运行的 On-Device 模式,Gemini Robotics On-Device 也表现出了相当不俗的泛化性能。



可以看到,相比之前最佳的本地端机器人模型,Gemini Robotics On-Device 的优势非常明显。


在更具挑战性的分布外任务和复杂的多步骤指令方面,Gemini Robotics On-Device 也优于其他本地端方案。



当然,如果开发者无需严格要求在本地运行模型,也可以使用 Gemini Robotics 模型。对该模型我们就不过多赘述了,详情可参阅技术报告:

https://arxiv.org/pdf/2503.20020


可适应新任务,可跨具身泛化


Gemini Robotics On-Device 也是 DeepMind 推出的首个可供微调的 VLA 模型。虽然许多任务可以开箱即用,但开发者也可以选择调整该模型,从而获得更佳性能。


该模型只需 50 到 100 个演示即可快速适应新任务,这表明该模型能够将其基础知识泛化到新任务。


DeepMind 在七项不同难度的灵巧操作任务上测试了该模型,包括拉开午餐盒拉链、画卡片和倒沙拉酱。


下图展示了 Gemini Robotics On-Device 模型的任务适应性能,其中使用的示例少于 100 个。



他们还研究了让 Gemini Robotics On-Device 模型适应不同的机器人。训练时,他们采用的是 ALOHA 机器人,但实验表明能够进一步将其调整用于双臂 Franka FR3 机器人和 Apptronik 的 Apollo 人形机器人。


在双臂机器人 Franka 上,该模型可以执行通用指令,包括处理之前未见过的物体和场景、完成诸如折叠连衣裙之类的灵巧任务,或执行需要精准度和灵活性的工业皮带装配任务。



Apollo 人形机器人则是完全不同的机器人形态,而该模型也能相当好的适应。同一个通用模型可以遵循自然语言指令,并以通用方式操控不同的物体,包括之前未见过的物体。



DeepMind 表示:「Gemini Robotics On-Device 标志着在使强大的机器人模型更易于获得和适应方面迈出了一步。」


看起来,我们离真正的具身智能时代又更近了一步。


Gemini 模型的其它更新


除了 Gemini Robotics On-Device,谷歌 DeepMind 还进行了一个可能不受免费用户欢迎的更新:下调免费可用额度。


博主 @ai_for_success 发现,Gemini 2.5 Flash 的免费可用额度从每日 500 次请求腰斩到了每日 250,而 Gemini 2.0 Flash 的免费可用额度更是从 1500 膝斩至 200。


https://x.com/ai_for_success/status/1937493142279971210


谷歌 AI Studio 和 Gemini API 产品负责人 Logan Kilpatrick 回应称这是他们的策略:「随着新模型的推出,降低或取消上一代模型的免费套餐。」



另外,谷歌今天还宣布在谷歌 AI Studio 和 Gemini API 中推出了图像生成模型 Imagen 4 和 Imagen 4 Ultra。



目前我们已经可以在谷歌 AI Studio 中免费试用它们。



这里我们也简单测试了一下,让 Imagen 4 Ultra 生成了一张包含猫、机器人与外星人的彩色水墨画:



参考链接

https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/

https://x.com/GoogleAI/status/1937554536966619399

https://x.com/OfficialLoganK/status/1937620224758759750


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


今天看啥地址:http://www.jintiankansha.me/t/4cAQ2MJPlF

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini Robotics On-Device 机器人 DeepMind 具身智能
相关文章