新智元报道
新智元报道
首先,机器人的一个核心问题,就是大脑VLA。很多行业的翘楚,都在这个方向推出了自己的模型。而对于这些领域,商汤既有的能力感知和多模态,就有极大的使用空间。比如,机器人的感知、导航、交互,以及世界模型,都能助力于机器人构造很好的VLA以及跟世界交互的可能性。另外,商汤的大装置,还能给底层提供端侧和云侧的核心方案。具体来说,这个平台提供了以下功能。
做视觉感知,是商汤的一大强项。不管是机器狗还是机器人都是带视觉的,一个天然视觉感知,就是对世界万物做识别和理解。
平台的第二大能力,就是视觉导航。目前在行业中,虽然已经有了全自主的无人驾驶车,却还并未出现全自主自动驾驶的机器狗和机器人。而商汤绝影,恰巧就在做全自主视觉的无人驾驶。此前,这个团队已经赋能了许多车企,做端到端的智能驾驶。
平台的第三大能力,就是交互工具。现场,商汤科技董事长兼CEO徐立为我们举了一个很有意思的例子——用AI生成《长安的荔枝》的PPT,然后让机器人给我们来做讲解。这一次,机器人被调适得非常幽默,可以让我们深刻感受到,它已经从一个交互工具,演变成了一个交互伙伴。只见这个机器人绘声绘色地做起了讲解,颇具个人风格,期间还不断爆梗:「难度大概相当于让你拿小灵通打王者荣耀,想想就知道有多虐!」「那咱们来算一笔账,按唐朝的银子换算,一次运输得花掉今天的1000万人民币!」注意,在这个过程中,机器人是自己翻PPT的——它很清楚地知道,自己讲解的内容是在哪一页。甚至如果我们对它提问,它还会自己翻回去。甚至在嘈杂环境中,它也不怕被打断。即使中间你问它问题,它在讲解完后,还会记得自己的主线任务,继续往下讲。整个过程中都体现出,这个机器人有全局记忆的能力。甚至有趣的是,上面这个功能,还可以用到机器狗上,对于形态并没有限制。
现在,商汤「开悟」世界模型,已经可以在车里生成多视角视频。这一点,可以说意义重大。原因在于,在虚拟世界里要生成很多数据去做交互,最关键的就是,这些数据在未来可能就是强化学习的一个基础。而商汤在自动驾驶上,就已经做到了用一句自然语言去生成一个七视角摄像头的视频。可以看到,它具有很好的空间一致性。(车开过不同摄像头时,它几何位置的对应,完全符合物理对空间世界的理解。)而且,它在时序上也做到了一致性。比如在这台车行驶的过程中,几次把车牌号拉出来一看,都能发现这个世界模型在时序上的生成是一致的。甚至,世界模型还能做编辑。在这个过程中,可以实时做编辑替换,甚至是插入、删除现实中的车。这部分新生成的数据,可以为AI进入现实世界,提供闭环交互训练的解决方案。比如在自动驾驶中,「加塞场景」就是典型的长尾场景,真实数据极其稀缺,而开悟世界模型就提供了高质量的多场景数据(光照、天气、道路结构)。最后将所有视角的视频结合,就仿佛在真实场景中开车一样。这种交互的真实感与实时性,可以说是「极品飞车」现实版了。如今,商汤进一步把「开悟」扩展到了具身智能领域,并赋予了它一个全新的名字——「开悟智能」,简称「悟能」。「悟能」具身世界模型,可以通过「人、物、场」,构建一个4D的真实世界。比如下面是两张初始视角图。给出一张具身关节模型,对它下指令「在厨房区域的架子上找东西」,它就可以生成如下的视频,生成了关节模型的连续位姿。
具身智能赛道,现已成为全球AI核心竞争点之一。不论是谷歌、英伟达等科技大厂,还是诸如Figure、Skilled AI等初创黑马,对此不断加码研发,冲刺万亿级市场。然而,具身智能机器人在应对多变的现实世界,仍面临着诸多瓶颈。这几天,英伟达杰出科学家Jim Fan对此也吐槽了一番——机器人都会跑酷和跳舞了,怎么还不能帮我遛狗呢?他这一现象称之为,机器人领域的mini版「莫拉维克悖论」。这恰恰说明了,具身智能领域的发展,还有很多问题等待被攻克。传统机器人通常被设计为「专才」,针对特定人任务进行优化,缺乏应对多变任务的灵活性。举个栗子,送餐机器人更擅长在餐厅环境中导航和递送食物,却无法在工业生产线上工作。这种「单一技能」的模式源于机器人硬件和算法高度定制化,导致不同本体难以实现任务迁移,即我们常说的「本体泛化」。若要解决这一挑战,核心便在于设计一个通用的「智能大脑」。由此一来,即便是不同形态的机器人,都能共享一套算法,适应多样化的硬件平台和任务需求。有了本体泛化还不够,具身智能如何实现「任务泛化」,是决定其能力的上限。若要完成「冰箱取食材—切菜—烹饪—端上桌」的任务,长序列规划、跨模态理解,以及实时纠错的能力必不可少。
作为计算机领域的先行者,商汤的入局并非偶然,而是技术基因和战略眼光的必然延伸。多年来,这家AI公司在多模态大模型、算力基础设施,以及产业生态各方面,有着深厚的积累。在技术布局的过程中,商汤经历了从「视觉感知」到「多模态推理」的探索。2022年,「元萝卜」机器人的发布,初步构建了「视觉-感知-决策」的闭环。它不仅能识别棋子,还能在遮挡情况下实现精准抓取。这一突破标志着,商汤向物理世界交互的具身智能迈进。
文章原文