CV君 2025-07-28 06:19 江苏
多视图室内3D目标检测是实现场景理解、增强现实和机器人导航的关键技术。然而,如何高效且准确地将多张2D图像信息“提升”到3D空间,一直是该领域的瓶颈。传统方法通常采用固定的投影方式构建3D体素(Voxel),这不仅计算冗余,而且限制了特征的表达能力。
近日,一篇被计算机视觉顶级会议ICCV 2025接收的论文《Boosting Multi-View Indoor 3D Object Detection via Adaptive 3D Volume Construction》提出了一种全新的解决方案。该研究由浙江大学、浙大宁波理工学院和香港城市大学的研究者们共同完成,他们提出了一个名为SGCDet的新型框架。该框架通过自适应3D体素构建,巧妙地解决了上述难题,在ScanNet、ScanNet200和ARKitScenes等多个权威数据集上均取得了SOTA(State-of-the-Art)的性能。
在多视图3D目标检测任务中,核心步骤是将从不同2D视角拍摄的图像特征,转换并融合到统一的3D空间中,形成所谓的“3D体素(3D Volume)”。过去的许多方法,如ImVoxelNet,通常是将3D空间中的每个体素中心点,直接投影回2D图像的固定位置来提取特征。
这种方法的弊端显而易见:
感受野受限: 一个3D体素只能从2D图像上的一个固定点采样特征,忽略了该点周围丰富的上下文信息。计算冗余: 无论是物体表面还是空无一物的自由空间,所有体素都被同等对待,导致大量计算资源被浪费在无效区域。SGCDet正是为了解决这两个核心痛点而设计的。
SGCDet的创新之处在于其“自适应”的体素构建方式,它包含两个核心模块:几何与上下文感知聚合模块,以及稀疏体素构建策略。
为了解决感受野受限的问题,研究者设计了这个模块,它包含两个关键部分:
帧内特征采样(Intra-view Feature Sampling): 传统方法将3D体素投影到2D图像的一个固定点,而SGCDet则引入了可变形注意力机制(Deformable Attention)。这使得每个3D体素在投影到2D图像后,能够自适应地在投影点周围的多个位置进行采样。这就像让体素拥有了“主动观察”的能力,可以根据需要去“看”周围的上下文信息,从而获得更丰富、更具代表性的特征。为了解决计算冗余的问题,SGCDet采用了一种由粗到精(Coarse-to-Fine)的稀疏构建策略。
占用概率预测: 首先,网络会初步构建一个粗糙的3D体素,并训练一个占用预测网络(Occupancy Prediction Network)来判断每个体素是属于“自由空间”还是“可能被物体占据”。聚焦精炼: 然后,网络会只选择那些占用概率高的体素,集中计算资源对它们进行特征精炼(即执行更复杂的几何与上下文感知聚合)。通过这种方式,大量的计算被从空旷区域中解放出来,使得模型能够更高效地运行,同时将“算力”用在刀刃上。
更值得一提的是,整个网络的监督仅需3D边界框(Bounding Box)真值,无需依赖难以获取的场景几何(如稠密深度图)真值,这大大增强了其在实际应用中的便利性。
实验结果与分析SGCDet在多个主流室内3D目标检测数据集上都展现了卓越的性能。
大量的消融实验也验证了SGCDet中各个创新模块的有效性。例如,实验证明,同时使用可变形注意力和多视图注意力,比单独使用任何一个的效果都要好。稀疏体素构建策略也被证明能够在不牺牲甚至提升精度的前提下,有效提高模型的运行效率。
SGCDet的提出,为多视图室内3D目标检测领域带来了显著的推动作用:
范式创新: 提出了一个全新的自适应3D体素构建框架,打破了传统固定感受野的限制。有效且高效: 通过几何与上下文感知聚合模块提升了特征质量,通过稀疏体素构建策略提升了计算效率,实现了“鱼与熊掌兼得”。SOTA性能: 在三大权威基准上均取得了当前最佳性能,为该领域树立了新的标杆。实用性强: 仅需3D Bbox监督,降低了对数据标注的要求,且代码已开源,便于社区研究和应用。总而言之,SGCDet通过其精巧的自适应设计,为如何从多视图2D图像中高效、准确地构建3D世界表征,提供了一个极具启发性的答案。
了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net