2025-03-21 11:25 北京
让AI通往物理世界
有“AI界超级碗”之称的GTC大会正在美国圣何塞进行。1000场活动、2000个、400家参展商……伴随AI技术的快速迭代,今年的GTC也演化成史上规模最大的一届。除了黄仁勋的主题演讲和英伟达系列新品发布,一众人工智能企业的新产品和新观点也是GTC的重要看点。
作为空间智能和智能驾驶领域的活跃创新力量,云启被投企业群核科技、元戎启行亮相GTC,展示了从三维空间理解到道路通用智能的技术新图谱。这两家AI独角兽抛出了什么“新狠活”?本期「云启伙伴」带你了解详情。
开源空间理解模型
助力具身智能训练
3月19日,群核科技在GTC2025全球大会上宣布开源空间理解模型SpatialLM,这是一个基于大语言模型的3D场景语义生成框架。
该模型仅通过一段视频即可生成物理正确的3D场景布局。不同于传统大语言模型,SpatialLM突破了对物理世界几何与空间关系的理解局限,赋予机器类人的空间认知和解析能力。目前,SpatialLM已在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源。
群核科技董事长黄晓煌表示:“我们希望打造一个从空间认知理解到空间行动交互闭环的具身智能训练平台。本次开源的SpatialLM空间理解模型旨在帮助具身智能机器人完成在空间认知理解上的基础训练。而去年群核科技发布的空间智能解决方案SpatialVerse,则希望进一步通过合成数据方案为机器人搭建最接近物理真实的‘数字道场’,实现机器人在仿真环境中的行动交互训练。”
群核科技SpatialLM模型开源页面
群核空间智能平台SpatialVerse是本次亮相GTC的另一个重头戏,它与SpatialLM模型之间“协同合作”,打通了"现实 - 虚拟 - 现实" 的闭环路径,例如,SpatialLM模型通过从视频到结构化场景的转化,将现实世界的数据转化为虚拟环境中的丰富场景,而基于SpatialVerse的合成数据引擎,一个结构化场景又可泛化生成亿万级新场景。这也意味着,现实世界将成为SpatialVerse“数字道场”的原料来源。
发布道路通用人工智能平台
让移动智能体被AI驱动
3月18日,元戎启行CEO周光在CTG2025全球大会发表了技术主题演讲,展示了公司的最新战略布局RoadAGI,并发布道路通用人工智能平台——AI Spark。
RoadAGI是元戎启行实现物理世界通用人工智能的关键一步,旨在让包括智能驾驶汽车在内的移动智能体,都具备在道路上自主行驶、与物理世界深度交互的能力。其中,Spark平台是元戎启行为实现道路通用人工智能打造的AI平台,通过投喂大量的优质脱敏道路行驶数据,它将能够理解物理世界的规律,并让搭载该平台的移动智能体具有跨室内外、任意点到点的移动能力。
元戎启行RoadAGI的首个形态Spark 1.0
除此之外,元戎启行还在Spark平台上应用了视觉-语言-导航(Vision-Language-Navigation,下称“VLN”)模型。通过VLN,移动智能体将能根据自然语言指令进行导航,同时理解自然语言指令与周围的图像信息,结合自身在环境中所处的状态做出对应的动作,最终抵达目标位置。
同时,Spark平台还允许移动智能体在脱离导航地图的情况下,通过理解周围环境、与行人和外部障碍物的交互,获取所需的信息,实现任意点到点的移动。
周光表示:“现阶段,元戎启行将继续深耕前沿的人工智能技术,打造好用、易用的智能驾驶系统,赋能车企智能化升级。随着量产车规模的增加,元戎启行将通过大量的优质数据让Spark平台更加聪明,可以适配更多形态的智能体。先实现RoadAGI,进而实现物理世界的通用人工智能。”