我爱计算机视觉 04月05日 20:52
复旦大学团队推出ParaCAD,首个包含尺寸信息标注的CAD参数化理解任务基准数据集!新范式PHT-CAD再创新SOTA!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

复旦大学团队推出PHT-CAD,一种利用视觉-语言模型进行CAD参数化分析的框架,并在其中提出了首个包含尺寸标注的CAD参数化基准数据集ParaCAD。PHT-CAD通过渐进式分层调优策略,提升了对工程图纸的理解和分析能力,并在多个评估指标上取得了显著的性能提升,标志着CAD参数化领域的重要进展。

📐 PHT-CAD框架:该框架基于视觉-语言模型(VLMs),用于精确分析工程图纸。它通过高效混合参数化(EHP)策略,提升了参数化表示的精度和一致性。

📊 ParaCAD数据集:这是首个包含真实数据和尺寸标注图层的CAD参数化基准数据集,解决了现有数据集缺少标注图层和真实数据的问题。

💡 渐进式分层调优(PHT)策略:PHT策略分为三个阶段,逐步提升模型对图元感知、结构约束推理和标注几何对齐的能力,从而实现细粒度的图元参数化。

✅ 性能提升:实验结果表明,PHT-CAD在标准评估、零样本评估和基于尺寸的评估中均取得了显著的性能提升,尤其是在SketchGraph数据集上,准确率提升显著。

🔍 消融实验:通过消融实验验证了PHT策略中各阶段和P-MSE损失的重要性,突出了其对模型性能的贡献。

2025-03-27 18:31 江苏




关注公众号,发现CV技术之美




本篇分享论文PHT-CAD: Efficient CAD Parametric Primitive Analysis with Progressive Hierarchical Tuning,复旦大学团队推出ParaCAD--首个包含尺寸信息标注的CAD参数化理解任务基准数据集!CAD参数化理解新范式PHT-CAD再创新SOTA!


引言

在当前的CAD参数化任务中,主流方案往往仅聚焦于工程图纸的几何图层,而忽视了标注图层的重要性。上述这一局限性导致许多学术上的解决方案难以直接应用于实际工业设计流程中。

为了填补学术社区中这一类数据集的缺失,本文推出了ParaCAD--首个整合了标注图层的大规模CAD参数化基准数据集。此外,为解决CAD参数化任务面临着两大核心挑战(即结构约束推理和高级语义理解),本文提出了名为PHT-CAD的新型二维参数化图元分析框架。该框架利用视觉-语言模型(VLMs)的模态对齐和推理能力,以实现对工程图纸的精确分析。

在模型训练方面,本文提出了渐进式分层调优(Progressive Hierarchical Tuning, PHT)策略,旨在逐步提升PHT-CAD的能力,使其不仅能更精准地感知单个图元,还能有效地推断出结构约束,并将标注层与对应的几何表示进行精准对齐。

实验结果表明,提出的PHT-CAD方法相较于现有 SOTA实现了显著的性能提升。这一成果标志着向解决CAD参数化领域难题迈出了重要一步,期望这项工作能够激发更多关于如何更好地结合VLMs来处理复杂工程图纸的讨论与探索。


首个包含真实数据和尺寸标注图层的CAD参数化Benchmark:ParaCAD

现有CAD参数化数据集主要有两个关键问题:

    缺少标注图层:工程图纸包含几何图层和标注图层两部分。几何图层编码了几何图元及其约束关系,而标注图层则提供了制造所需的关键信息,包括尺寸标注、功能符号和工艺说明。现有的学术数据集都不包含标注图层。
    缺少真实数据:与草图和手绘图像不同,真实数据具有显著更高的结构复杂性,包含更多的几何图元、复杂的相互关系以及更高的信息密度。此外,它们必须符合现实中的物理约束,以确保可制造性和功能性(例如,完全封闭形状的要求)。同时,工程图纸中通常会包含干扰元素,例如标注线条等。

为解决以上问题,我们提出了新的CAD参数化Benchmark:ParaCAD。部分数据样例如下图所示:

图1 ParaCAD的部分样例

1. 数据处理流程

为了构建带有尺寸标注的CAD参数化数据,本文提出了一套相应的数据处理流程,如下图所示。

图2 数据处理流程
    步骤 1:数据预处理与 DXF 文件生成

首先,进行数据预处理,明确图元类型,过滤图元过于简单的样本,最后将草图转换为对应的DXF文件。

    步骤 2:尺寸标注与多格式转换

使用 ezdxf 工具为草图添加尺寸参数标注,从而生成带有尺寸标注的新 DXF 文件。最终,得到两个版本的 DXF 文件:仅包含几何图元的未标注 DXF 文件和带有尺寸标注的 DXF 文件。随后,这两种文件被分别转换为结构化的 JSON 文件和 PNG 图像。

    步骤 3:几何约束提取与 JSON 结构化

对步骤 2 中生成的 JSON 文件进行处理,通过分析图元之间的位置关系来提取几何约束。这些约束随后被插入到对应的 JSON 文件中,以确保文件包含图元信息、约束信息和尺寸标注信息

2.评测方法

在评测方面,现有的草图参数化方法使用的评估指标并不一致。为了解决这一问题,文本复现了部分现有方法,同时补充了缺失的评估指标,以确保一个全面且统一的评估框架。此外,为了定量评估几何图层和标注图层关联的准确性,本文引入了一项新的评价指标--尺寸精度(Dimension Accuracy, DA),用于评估预测尺寸与其对应的真实标注之间的对齐情况。

此外,本文总结了三种模型性能的评估范式:

    标准评估:模型在已有各数据集的训练集上进行训练,并在其对应的测试集上进行评估,模拟标准的CAD参数化流程;
    零样本评估:模型在单个数据集的训练集上进行训练,并在未见过的测试集上进行评估,模拟零样本场景;
    基于尺寸的评估:使用提出的DA指标评估几何图层与标注图层之间的匹配准确性。

基于大模型的CAD参数化新范式:PHT-CAD

1.高效混合参数化(Efficient Hybrid Parametrization)

现有的参数化策略主要包括: 隐式策略、基于点的策略和过参数化策略。 此类策略的信息密度比较差,同时与VLMs模型的适配性不高。

在这些现有参数化策略的基础上,本文提出了一种新的表示方法--高效混合参数化(Efficient Hybrid Parametrization, EHP),将基于点的策略与隐式策略相结合,同时消除冗余信息以提高效率和一致性。综上所述,EHP 可以描述为:

其中,分别表示起点和终点坐标,v是一个二进制指示符,用于指定有效性(例如,实线或虚线)。表示圆心坐标,r表示半径。分别表示起始角和终止角。

2.模型框架

PHT-CAD 的详细架构如下图3所示。

图3 模型框架结构

PHT-CAD 中的视觉编码器基于Vision Transformer构建,文本解码器基于Qwen2.5构建。现有的VLMs通常采用交叉熵损失进行优化。但交叉熵损失并未显式考虑预测值与真实值之间的数值差异,因此不适用于精确的参数预测。

此外,离散数值的Token预测对大语言模型仍然是一个挑战。因此,本文提出的PHT-CAD额外引入了四个专有回归头以分别预测四个基本图元的数值参数。

为了更有效的监督专有回归头的输出,本文基于均方误差(Mean Squared Error, MSE)损失提出参数化均方误差(Parametric Mean Squared Error, P-MSE)损失,以提高图元参数化的精度。

3.渐进式分层调优(Progressive Hierarchical Tuning, PHT)

渐进式分层调优策略主要分为三个阶段,如下图所示:

图4 渐进式分层调优策略
    第一阶段-图元感知调优:这一阶段的任务是识别和分类单个几何图元,并以结构化的参数化格式输出它们对应的参数。
    第二阶段-结构感知调优:这一阶段扩展模型对工程图纸中所有图元的感知能力,并理解它们之间的相互依赖关系和约束条件。
    第三阶段-标注几何对齐:最后一个调优阶段旨在增强模型处理包含尺寸标注的工程图纸的能力,同时预测图元、约束条件以及尺寸信息。

通过渐进式分层调优(PHT)策略,模型的内在几何感知和推理能力逐步增强,从而实现细粒度的图元参数化。


实验结果

标准评估

下表展示了在SketchGraph数据集上性能对比。其中,PHT-CAD表现出色,在精确草图图像上的准确率比当前SOTA方法提升了6%。

当训练数据和测试数据之间的领域差距较小时(即不包含手绘数据时),性能提升更为显著,准确率提高了10.8%。在手绘草图图像上,PHT-CAD的准确率提升了13.7%。

这些显著的改进主要源于训练过程的第一阶段和第二阶段中引入的调优措施,这些措施提升了模型对图元的感知能力以及学习结构化约束的能力。

表1 标准评估下的性能对比

零样本评估

下表报告了PHT-CAD在零样本评估范式下与SOTA方法的对比结果。该设置下,SketchGraph作为训练集,CADL作为测试集。PHT-CAD在所有指标上均优于其他方法,在准确率指标上提升了11.4%。

这一显著的性能提升主要得益于模型能够利用视觉-语言模型(VLMs)固有的结构约束推理和语义理解能力,从而使模型具备强大的泛化能力。

表2 零样本评估下的性能对比

基于尺寸的评估

由于该领域尚无此前的研究工作,本文仅报告PHT-CAD在ParaCAD数据集上的性能,以推进学术社区的进一步探索。如下表所示,提出的PHT-CAD在准确率(Acc)指标上达到了84.0%。

表3 基于尺寸的评估结果

消融实验

    三阶段PHT策略

本文分别对调优策略的第一阶段和第二阶段进行了消融实验,结果如下表所示。

在缺少第一阶段的情况下,性能显著下降,准确率指标降低了12%。由于第一阶段的训练目标是识别和分类单个几何图元,这为模型感知整个图纸奠定了关键基础。因此,第一阶段缺失导致了较为显著的性能下降。

与缺少第一阶段相比,当不使用第二阶段时,性能下降更为显著,PHT-CAD的准确率下降了近15%。

表4 三阶段PHT消融结果

    P-MSE损失

如下表所示,本文比较了在SketchGraph和ParaCAD数据集上使用和不使用P-MSE损失的模型性能。

结果表明,使用P-MSE损失的模型在这两个数据集上均实现了显著的性能提升。P-MSE损失有效提高了模型的准确率和图像重建质量,尤其在SketchGraph数据集上的效果更为明显。

此外,如下图所示,我们提供了使用和不使用P-MSE损失的模型之间的可视化对比。显然,在引入P-MSE后,模型对图元细粒度细节的感知能力得到了显著提升。

表5 P-MSE损失消融实验结果

图5 使用和不使用P-MSE损失下的模型预测结果可视化对比

结论

本文提出了PHT-CAD,一种创新的CAD参数化图元分析框架,利用视觉-语言模型(VLMs)的能力实现精确的工程图纸分析。通过提出高效混合参数化(EHP)策略,增强了参数化表示的精度和一致性,并通过广泛的实验验证了其有效性。

此外,本文发布了ParaCAD,这是首个包含几何图层和标注图层的大规模2D-CAD参数化基准数据集,填补了现有数据空白并具备较高的实际应用价值。在多个基准上的实验结果验证了PHT-CAD的有效性,标志着2D-CAD参数化在工业设计和制造应用领域取得了重要进展。

最新 AI 进展报道
请联系:amos@52cv.net


END




欢迎加入「计算机视觉交流群👇备注:CV




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PHT-CAD ParaCAD CAD参数化 视觉-语言模型 人工智能
相关文章