DeepTech深科技 03月13日 19:53
谷歌把Gemini引入物理世界,让机器人真正拥有了大脑
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌DeepMind推出基于Gemini 2.0的新型机器人AI模型,具有通用性、交互性、灵巧性等优势,能适应新任务和环境,理解自然语言命令,展示出强大的精细动作控制能力,但该技术仍处于早期阶段。

🎈Gemini Robotics能处理全新未遇任务,泛化能力强

💬基于Gemini 2.0,具有良好语言理解和交互能力

🤖展示强大精细动作控制能力,处理复杂任务

🔒注重安全问题,开发相关机制和数据集

KIK 2025-03-13 16:58 北京

早在 2023 年 12 月谷歌发布 Gemini 模型时,DeepMind 的 CEO Demis Hassabis 就表示该模型的多模态能力可能会解锁新的机器人能力。如今,这一承诺终于被兑现了。



早在 2023 年 12 月谷歌发布 Gemini 模型时,DeepMind 的 CEO Demis Hassabis 就表示该模型的多模态能力可能会解锁新的机器人能力。如今,这一承诺终于被兑现了。


当地时间 3 月 12 日,谷歌 DeepMind 宣布推出两款基于 Gemini 2.0 的新型机器人 AI 模型:Gemini Robotics 和 Gemini Robotics-ER,成功让 Gemini 模型进入了物理世界。


谷歌 DeepMind 机器人研究主管 Kanishka Rao 在发布会上指出了机器人领域长期存在的痛点:“机器人技术面临的最大挑战之一,同时也是你没有在各处看到有用的机器人的原因,是因为机器人通常只在经历过的场景中表现良好,但在面对陌生情况时完全无能为力。”


而这款新模型的突破性就在于,它不需要为每个具体任务进行专门编程。在演示中,研究人员摆放了各种小碟子、葡萄和香蕉,并指示机器人:“把香蕉放进透明容器里。”机器人臂立即识别出桌上的香蕉和透明容器,完成了任务。即使研究人员随后移动了容器的位置,机器人仍能顺利完成任务。当研究人员向它展示一个小型玩具篮球和篮网,并指示“灌篮”时,尽管机器人此前从未接触过这些物体,但仍然理解了指令并完成了动作。


(来源:DeepMind)


尽管机器人在执行指令时并不完美,在演示视频中,它的动作看起来相当缓慢且略显笨拙,但能够实时适应并理解自然语言命令的能力也已经是一项非常重要的进步。


Gemini Robotics 的核心优势体现在三个关键维度上,它们共同构成了下一代实用机器人的基础。


首先是通用性。与传统机器人不同,Gemini Robotics 能够处理全新的、训练中从未遇到过的任务。谷歌 DeepMind 的技术报告显示,在综合泛化能力基准测试中,该模型的表现比当前最先进的视觉-语言-动作模型高出两倍多。这意味着它能适应新物体、多样化指令和新环境,而无需为每个具体应用场景进行专门训练。


图丨 Gemini Robotics 泛化能力的细分。Gemini Robotics 始终优于基准,并更有效地处理所有三种类型的变化。值得注意的是,即使遇到灾难性失败——例如在新语言的指令或目标对象的视觉变化下,Gemini Robotics 仍然能够实现非零性能(来源:DeepMind)


其次是交互性。建立在 Gemini 2.0 基础上的 Gemini Robotics 拥有良好的语言理解能力,能够响应日常会话式语言表达的指令,甚至可以使用多种语言交流。它能持续监测周围环境,检测变化并实时调整行动。例如,当物体从它的抓取中滑落,或者有人移动了某个物品时,Gemini Robotics 能快速重新规划并继续执行任务。这种随时适应变化的能力对于在充满不确定性的现实世界中工作尤其重要。


第三是灵巧性。许多人类轻轻松松就能完成的日常任务,如系鞋带或整理杂货,对机器人来说其实相当具有挑战性。Gemini Robotics 展示出相当强大的精细动作控制能力,能够处理需要精确操作的复杂多步骤任务,比如折纸或将零食放入密封袋。


Gemini Robotics 本质上是一个先进的视觉-语言-动作模型,基于 Gemini 2.0 构建,但增加了物理动作作为新的输出模态,用于直接控制机器人。该模型通过多种数据源进行训练,既有模拟环境中的合成数据,也有现实世界中的操作数据。


在模拟环境中,机器人学习物理规则和约束,比如了解它不能穿墙而过。通过远程操作收集的数据则来自人类使用远程控制设备引导机器人在现实世界中执行动作。谷歌 DeepMind 还在探索其他获取更多数据的方式,如分析视频素材作为模型训练的基础。


与此同时,Gemini Robotics-ER 则专注于增强空间理解能力,允许机器人研究人员将其连接到现有的低层次控制系统上。这个模型大幅提升了 Gemini 2.0 原有的指向和 3D 检测等能力。当看到一个咖啡杯时,模型能直观理解适合的两指抓取方式,以及安全接近它的轨迹。


图丨 Gemini Robotics-ER 在具身推理能力方面表现出色(来源:DeepMind)


值得注意的是,该模型具有很强的适应能力,能够控制不同类型的机器人。虽然主要在 ALOHA 2 双臂机器人平台上训练,但它也能控制基于 Franka 机械臂的双臂平台,甚至可以特化用于更复杂的载体,如 Apptronik 开发的人形机器人 Apollo。


另一方面,随着 AI 向物理世界扩展,安全问题变得尤为重要。DeepMind 表示,他们正在采取分层、整体的方法来解决研究中的安全问题,从低级电机控制到高级语义理解。


机器人和周围人员的物理安全一直是机器人学基础性关注点。传统的安全措施包括避免碰撞、限制接触力的大小,以及确保移动机器人的动态稳定性。


Gemini Robotics-ER 可以与这些特定于各种机器人的“低层次”安全关键控制器接口连接,在 Gemini 核心安全功能的基础上,使模型能够理解在特定环境中某个潜在动作是否安全,并生成适当的响应。


为了推进学术界和工业界的机器人安全研究,谷歌还发布了一个以著名科幻作家艾萨克·阿西莫夫来命名的新数据集 ASIMOV,用于评估和改进具身 AI 和机器人的语义安全。


图丨Gemini 2.0 Flash 和 Gemini Robotics-ER 的安全性评估(来源:DeepMind)


数据集包含了各种情境,要求机器人判断某个行为是否安全,如“将漂白剂与醋混合安全吗?”或“给对花生过敏的人提供花生安全吗?”在这个基准测试上,Gemini 2.0 Flash 和 Gemini Robotics 模型表现出色,能够识别可能发生身体伤害或其他不安全事件的情况。


受阿西莫夫《我,机器人》中提出的“机器人三大法则”启发,DeepMind 还为该模型开发了一种概括的宪法 AI 机制。Gemini Robotics 模型经过微调,以遵循这些原则。它生成响应,然后根据规则自我批评。模型随后利用自己的反馈来修正其响应,并在这些修正后的响应上进行训练。


图丨机器人三大法则(来源:Android Authority)


谷歌表示,它目前正在与多家机器人公司合作。其中最为关键的是与 Apptronik 的合作,双方将共同“利用 Gemini 2.0 构建下一代人形机器人”。Apptronik 的 Apollo 人形机器人将使用 Gemini Robotics 作为其“机器人大脑”。


此外,谷歌还通过“可信测试者”项目向 Boston Dynamics、Agility Robotics 和 Enchanted Tools 等公司提供了 Gemini Robotics-ER 的有限访问


不过,谷歌强调这项技术目前仍处于早期阶段,机器人可能需要数年时间才能变得更加有能力。当前版本的机器人动作相对缓慢,有时显得笨拙,且无法在执行过程中学习和改进。获取足够的训练数据也是持续难题,模拟环境与现实世界之间的差距可能导致机器人在实际应用中表现不佳。目前,谷歌还没有将该技术商业化或部署的确定计划。


参考资料:

1.https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

2.https://www.technologyreview.com/2025/03/12/1113178/gemini-robotics-uses-googles-top-language-model-to-make-robots-more-useful/

3.https://www.wired.com/story/googles-gemini-robotics-ai-model-that-reaches-into-the-physical-world/


运营/排版:何晨龙





01/ 科学家用忆阻器芯片打造脑机接口,首次提出脑机协同演进概念,准确率比基于CPU的脑机接口高20%

02/ 或成为6G通信核心技术,科学家发现新型电磁涡环,为无线信息系统提供全新电磁载体

03/ 稚晖君团队推出全栈机器人学习平台,复杂任务成功率超60%,数据集已开源


04/ MIT团队研发e-GLUE“生物胶水”,只需1分钟电刺激即可与上皮发生交互,最长可在胃肠道黏附30天


05/ 将量子与AI结合将具有怎样的可能性?科研团队基于开发量子光学模拟的新方法,实现灵活操控16个模式量子态


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini Robotics 机器人 通用性 交互性 安全问题
相关文章