新智元报道
新智元报道
当前空间智能/具身智能行业存在的挑战有很多,但是主要挑战是数据困境,而仿真数据生成困境最为突出。当前,具身智能获取训练数据的主要途径可归为三大类:真实数据(Real-World Data)、互联网数据(Internet/Passive Data)与仿真合成数据(Simulated/Synthetic Data)。真实数据
真实数据,可以理解为机器人在物理环境中实际执行任务时,使用传感器、摄像头、力觉器件等采集的一手数据。Physical Intelligence(加州创业公司)通过大量真实机器人运动与传感器数据训练具身智能模型。这些数据虽然完全符合物理规律,但是缺点明显:成本高昂:每一条数据采集往往需专人操作+场地布置+高精设备,1小时采集动辄数千元;采集效率低:不能并行采集,任务复杂度高导致低通量;复现性差:不可控因素多,难以完全复刻采集场景用于训练或验证。互联网数据
互联网数据,可以理解为「机器人看,然后机器人跟着做」,指的是具身智能系统在观看教程后进行学习。康奈尔大学开发的RHyME框架,机器人仅通过观看网络上的教学视频就能学习执行任务,缺乏物理反馈通道。这种方法缺点更加明显:缺乏交互性:被动观察而非主动探索,难以建模因果关系;缺失物理信息:无力觉、无反馈、无环境状态变化;标注困难:从无序视频中提取可用信息成本高,易引入偏差;难以迁移:从人类视频中学习得来的策略不一定适用于机器人身体和运动限制。仿真合成数据
仿真合成数据可以理解为通过3D引擎、图形渲染技术或物理模拟器合成的数据,包括图像、深度、碰撞反馈、动作序列等,通常在虚拟环境中自动生成。相比上面两种方式,仿真合成数据是目前的主流。英伟达发布的Open Physical AI Dataset,就提供了超过320,000条仿真轨迹、1000个SimReady场景资产等,为物理AI提供大规模合成交互数据基础。真实数据在泛化性、操作成本、数据安全上都存在局限,而普通仿真合成数据存在非常大的Sim2Real的gap:「Reality Gap」(现实鸿沟)问题:仿真环境再逼真也存在与现实世界的偏差;物理真实性受限:模拟的摩擦、碰撞、柔性物体行为难以完美还原现实;对仿真平台依赖大:需要强大的渲染算力、引擎支持与场景建模能力。传统仿真环境往往真实感不够,难以逼真再现现实世界的物理和视觉细节。早期不少模拟器中的场景是手工建模或游戏引擎生成的,视觉上偏于卡通或简化,物理互动也不完善。这种虚拟—现实差距(Reality Gap)导致智能体在模拟中学到的技能难以直接迁移到现实,Sim2Real效果不理想 。2024年,李飞飞同样意识到未来的具身智能需要大量的高质量的3D数据,于是其新团队World Labs发布了首个空间智能AI模型,可以从单个图像一键生成3D世界。而仅3个月就估值10亿的World Labs令业内恍然大悟:AI教母瞄准的,就是能进行推理的空间智能!群核科技走的路线跟李飞飞接近。不过群核的优势在于十多年在产业场景中沉淀了大量室内空间的3D数据。为机器人装上「空间大脑」相比群核科技,或者大家更早听说的是酷家乐。酷家乐是群核科技的核心产品之一,已经沉淀一套空间编辑工具,且广泛应用在家居、建筑、商超、医院、电商,以及工业场景。就像快手和可灵之间形成的飞轮效应,在过去产业落地过程中,酷家乐为群核沉淀了大量的物理正确的三维数据。基于这片独一无二的数据沃土,群核得以训练出强大的空间大模型SpatialLM,深刻理解物理空间的规则与逻辑。SpatialLM于2025年3月开源时,一度登上Hugging Face全球趋势榜前三。面对高质量3D数据稀缺这一时代难题,群核科技一直在探索3D合成数据的方案。比如群核科技在2024年推出的空间智能平台SpatialVerse,智能体通过高质量数据的充分训练,能够真正获得泛化能力,应对现实中的千万种复杂场景。SpatialVerse平台犹如一个「数字道场」,它不仅能为场景中的物体赋予真实的物理属性,比如质量、摩擦力等。它还能模拟门窗、抽屉的开合等动态交互。更重要的是,基于SpatialVerse的合成数据引擎,可以将SpatialLM模型生成的结构化3D场景,泛化生成亿万级具有多样性的新场景。利用这些虚拟场景训练出来的智能体(如具身机器人),能更好地适应和应用于真实世界,缩小仿真与现实之间的差距(Sim2Real Gap)。这一路径既拓展了虚拟场景的数据来源,又提升了AI模型在现实场景中的实用性,强化了「数字道场」与物理世界的联动。其价值已在学术界和产业界获得了一系列广泛验证。学术界:谷歌与斯坦福大学的联合研究论文FirePlace中,也明确致谢SpatialVerse平台提供的高质量3D场景数据。此外,群核科技还与英特尔实验室联合打造高真实感的智能机器人仿真平台(如SPEAR),在与上海人工智能实验室的合作中,为「桃源」提供高质量3D数据。产业界:「稚晖君」彭志辉参与创办的明星企业智元机器人,已采用SpatialVerse提供的仿真数据进行机器人训练。此外,还有银河通用、穹彻智能、智平方、松应科技在内的一批具身智能企业与群核科技达成合作。智元机器人在群核科技提供的仿真数据中训练仿真数据生成新范式3D高斯+空间大模型今年的WAIC大会上,他们提出了一个新的尝试,将前沿的3D高斯溅射技术与自研空间大模型深度融合。这一套全新的仿真数据生成范式,通过3D高斯重建+空间大模型+物理仿真这三大技术的协同作用,打通「现实-虚拟-现实」的闭环路径。群核科技仿真数据生成新范式首先,3D高斯溅射(3D Gaussian Splatting)作为现实世界的「数据复刻师」,扮演了至关重要的一步。仅需一段视频或一组图片,它便能以极高的保真度和效率,将物理世界复刻到数字世界。相比于传统3D建模的漫长周期与高昂的成本,3D高斯技术更快、更轻量、更真实,甚至普通人也能轻松操作。可以说,3D高斯技术是人类记录方式的一次升级——从二维照片、视频跃迁到可任意漫游、沉浸式体验的三维空间!说到这里,不得不提起一个暖心的故事。不久前,群核科技的团队正是利用该技术,成功将一个拥有60余年历史、承载了很多人旧时温情记忆的老照相馆迁移到了云端——使其成为了一个永不关门的「时空胶囊」。如此善举也迅速让这项前沿技术迅速火出圈。体验链接:https://www.kujiale.com/pub/koolab/koorender/gifts然而,仅仅有一个惟妙惟肖的数字外壳还是不够的。机器人还要能「看懂」这个世界。例如,要能够理解「这是一张床,那是一扇可以打开的门」。这便引出了新范式的第二个关键技术支柱:空间大模型的语义赋予。如果说3D高斯重建了空间的「形」,那么空间大模型则会赋予其「神」。群核科技自研的空间理解模型SpatialLM,能够对重建的点云数据进行深度分析,精准识别出场景中的物体、结构以及相互之间的关系,并打上精准的语义标签。这便使原本仅是视觉奇观的3D场景,转化为一个机器人可理解、可推理、可交互的3D数据。最后,通过群核空间智能平台SpatialVerse进行物理仿真与数据增强,完成了新范式的最后一环。基于这条新范式,群核在WAIC 2025期间发布了新成果——高质量3D高斯语义数据集——InteriorGS。该数据集包含1000个精细的3D高斯语义场景,覆盖超过80种室内环境,是全球首个适用于智能体自由运动的大规模3D数据集。InteriorGS数据集的示例。该数据集提供了高质量的3D高斯点阵(3DGS)表示,以及实例级别的语义边界框和表示智能体可访问区域的占用图。红色和黄色轨迹分别表示地面机器人和无人机(UAV)的路径。值得注意的是,InteriorGS支持在连续3D环境中进行自由形式的智能体导航和交互,从而实现真实的空间智能训练与评估
Github: https://github.com/manycore-research/InteriorGS
在具身智能全面到来之前,行业正致力于为它们搭建进化的桥梁——连接数字世界与物理世界,打通感知、理解与行动的闭环。
文章原文