我爱计算机视觉 07月19日 07:42
ICCV 2025 | 6D位姿置信区间估计的直接法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文提出了一种创新的确定性6D位姿置信区间估计直接法,旨在解决传统基于采样方法的计算效率低下和置信区间过于宽泛的问题。该方法通过神经网络直接回归关键点的概率分布,并利用归纳保形预测校准为2D关键点置信区间。核心在于运用隐函数定理,将2D置信区间确定性地传播至6D位姿空间,生成紧凑的椭球置信区间。实验表明,该方法在推理速度上提升显著,同时大幅缩小了旋转和平移的置信区间体积,为自动驾驶、机器人操作等安全关键领域提供了更可靠的技术支撑。

🎯 **确定性关键点回归与置信区间生成**:该方法摒弃了传统的随机采样,通过神经网络直接预测每个关键点的二维高斯分布参数(均值和协方差矩阵),从而高效地建模关键点位置的不确定性。随后,利用归纳保形预测(ICP)框架,结合校准数据集计算非符合性分数阈值,确保生成的2D关键点置信区间(圆形区域)能以用户指定的概率覆盖真实的关键点位置。

💡 **隐函数定理驱动的位姿置信区间传播**:文章的核心创新在于利用隐函数定理(IFT)解析PnP求解器中6D位姿(输出)相对于2D关键点(输入)的雅可比矩阵。这个雅可比矩阵建立了输入和输出不确定性之间的映射关系,使得2D关键点的协方差矩阵能够通过该雅可比矩阵,“确定性”地、直接地传播为6D位姿的协方差矩阵,最终形成紧凑的椭球体作为旋转和位移的置信区间。

🚀 **显著的效率与紧凑性提升**:与依赖随机采样的主流方法相比,该方法无需耗时的采样过程,在保证相近的真实位姿覆盖率的前提下,推理速度提升超过33%。同时,生成的置信区间体积大幅缩小,旋转置信区间体积最多减小99.9%,平移置信区间体积最多减小99.8%,极大地提高了实际应用的可行性。

📊 **更全面的评估指标**:除了传统的位姿精度和覆盖率评估外,该方法还提出了一套更完善的评估指标,首次将置信区间的体积作为关键衡量标准。这使得对不确定性量化方法的性能评估更加全面,能够更准确地反映方法的紧凑性和有效性。

原创 52CV 2025-07-16 13:58 江苏

关注公众号,发现CV技术之美


本篇分享 ICCV 2025 论文Deterministic Object Pose Confidence Region Estimation,提出6D位姿置信区间估计的直接法。

在自动驾驶、机器人操作、增强现实等安全关键领域,精确感知三维物体的位置和姿态(6D位姿)至关重要。 然而,仅提供单一的最优位姿估计,在面对视觉模糊等情况时无法保证系统的可靠性,甚至可能引发灾难性后果。 因此,对位姿估计进行不确定性量化,即提供一个能以特定概率包围真实位姿的“置信区间”,已成为学术界和工业界的前沿方向。

当前主流的置信区间估算方法严重依赖于随机采样,这一过程不仅计算效率低下,而且生成的置信区间往往过于宽泛(体积过大),极大地限制了其实际应用价值。 为解决这些挑战,国防科技大学图像测量与视觉导航团队提出了一种高效的确定性6D位姿置信区间估计方法。

该方法摒弃了耗时的采样过程,首先通过神经网络直接回归关键点的概率分布,然后利用归纳保形预测(Inductive Conformal Prediction) 将其校准为具有用户指定覆盖率的2D关键点置信区间。 核心创新在于,团队借助隐函数定理(Implicit Function Theorem),将2D关键点置信区间确定性地、直接地传播到6D位姿空间,生成紧凑的椭球置信区间。

实验结果表明,该方法在保证相近的真实位姿覆盖率的前提下,推理速度提升超过33%,并且生成的置信区间体积大幅度缩小——旋转置信区间体积最多减小99.9%,平移置信区间体积最多减小99.8%。 该工作为高可靠性、安全关键应用的落地提供了坚实的技术支撑。

Abstract

本文提出了一种位姿置信区间估计的直接法。对于用户,只需要自定义覆盖率,其后算法能生成以指定覆盖率覆盖位姿真值的6D位姿置信区间,并且能够输出紧凑的位姿置信区间。

本文的贡献与创新点如下:

    提出了一种基于 ICP (归纳保形预测) 的方法来预测关键点置信区域,该方法依赖于对高斯关键点分布的确定性回归。

    利用 IFT (隐函数定理),将关键点置信区域直接传播到6D位姿中,同时保持了与采样方法相当的位姿覆盖率。

    提出了全面的度量标准来评估估计出的位姿置信区域。

Method

本文提出的确定性位姿置信区间估计流程如图2所示,主要包含三个核心步骤。给定输入图像(a),方法首先回归关键点的二维高斯分布(b);随后通过归纳保形预测校准得到2D关键点置信区间(c);最后,通过基于隐函数定理的确定性传播,高效地得到紧凑的6D位姿置信区间(d)。

图2

1. 确定性关键点回归 (Keypoint Deterministic Regression)

不同于计算和存储开销大的热力图方法,本文采用一种高效的回归模型,直接预测图像中每个语义关键点的二维高斯分布参数(均值和协方差矩阵)。 这种方式直接对关键点位置的不确定性(Aleatoric Uncertainty)进行建模。

2. 归纳保形预测与置信区间校准 (Conformal Prediction & Calibration)

为了使预测的置信区间具有严格的统计保障,本文采用归纳保形预测(ICP)框架。 该框架利用一个校准数据集,计算出一个非符合性分数阈值。 对于新的测试图像,该阈值可以确保生成的2D关键点置信区间(一系列以预测均值为中心,以协方差和阈值为半径的圆形区域)能够以用户预先设定的概率(例如 )覆盖所有真实的关键点位置。

3. 基于隐函数定理的确定性传播 (IFT-based Deterministic Propagation)

这是本文的核心创新。团队摒弃了传统的随机采样,利用隐函数定理(IFT)来解析PnP求解器中6D位姿(输出)相对于2D关键点(输入)的雅可比矩阵。 这个雅可比矩阵建立起了输入和输出不确定性之间的映射关系。随后,根据不确定性传播理论,将2D关键点的协方差矩阵(代表2D置信区间)通过该雅可比矩阵,“确定性”地、直接传播为6D位姿的协方差矩阵。 这个6D协方差矩阵最终定义了一个紧凑的椭球体,作为最终的旋转和位移置信区间。

此外,本文还提出了一套更完善的评估指标,不仅评估位姿精度和覆盖率,还首次将置信区间的体积作为关键衡量标准,以更全面地评价不确定性量化方法的性能。

Experiments

Main Results

表3给出了本文方法的位姿真值覆盖率和其它采样方法的对比。从表中可以发现,由于大幅降低置信区间体检,我们的方法覆盖率相对于采样方法会降低一些。此外,为了更全面的展示我们的方法的性能,我们计算了数据集置信区间体积:

表4给出了本文置信区间估计方法和其它采样方法的对比,我们设计了专门用于置信区间的评价指标(置信区间体积)。从表中可以发现,我们的方法作为一种无需采样的范式,其置信区间更紧凑。

可视化实验

此外,为了更全面的展示我们的方法的性能,我们进行了位姿置信区间的可视化:

如图3所示,我们展示了LMO数据集中本文方法二维关键点置信区间(第一列)和位姿置信区间(第二列表示旋转,第三列表示平移)和采样方法(第四列表示旋转,第五列表示平移)输出置信区间凸包。结果显示,本文方法可以输出更加紧凑的置信区间。

图7表示的是本文方法在SPEED数据集,输出的关键点置信区间和位姿置信区间。更多的实验结果和实验细节,欢迎阅读我们的论文原文以及补充材料。

了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net

END

欢迎加入「6D位姿交流群👇备注:6D


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

6D位姿估计 置信区间 确定性方法 隐函数定理 归纳保形预测
相关文章