微软研究院AI头条 06月18日 11:40
重塑建模流程,AI让CAD成为人人可用的设计工具
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了微软亚洲研究院的三项最新研究:FlexCAD、CADFusion 和 CAD-Editor,它们分别从统一建模框架、视觉反馈机制和自然语言编辑功能三个层面,推动了CAD建模的智能化发展。这些技术旨在提升建模效率,让使用者更专注于创意。FlexCAD 实现了高质量、高灵活性的CAD建模统一范式;CADFusion 使模型具备“写指令”与“看效果”的能力;CAD-Editor 实现了基于自然语言的复杂模型编辑。这些创新有望简化CAD建模流程,激发设计者的创造力。

💡FlexCAD:FlexCAD 提出了单一模型一次微调即可覆盖全部建模层级的统一框架。它将CAD模型编码为结构化文本,通过层级感知遮盖策略,使得模型能够灵活完成局部补全任务,无需专门针对不同模块训练多个子模块,实现了高质量、高灵活性的 CAD 建模统一范式。

👁️CADFusion:CADFusion 通过两个阶段交替训练,让模型同时具备“写指令”与“看效果”的能力。序列学习阶段使用真实的参数化序列监督大语言模型;视觉反馈阶段将候选序列渲染成图像,并利用直接偏好优化,使模型在两种信号间达到平衡。实验结果表明,CADFusion 在定量指标与人类评估质量上均大幅领先。

✍️CAD-Editor:CAD-Editor 提出先定位再填充的两阶段框架,并用全自动流程构建大规模训练数据。它通过自动三元组数据管线构建“原模型-编辑后模型”对,并用自然语言描述其差异,然后通过先定位再填充双模型架构实现“精确遮盖 + 最小改动”,显著超越了单步基线,且对多样编辑场景高度泛化。


(本文阅读时间:10分钟)


编者按:在传统的机械设计和制造流程中,参数化 CAD 文件一直是概念与制造之间的关键桥梁。然而,工程师们长期以来一直被复杂的 CAD 特征树和繁琐的建模流程所困扰。近年来,随着大语言模型(LLMs)的飞速发展,AI 在多个领域展现了其强大的能力。本文将介绍三项微软亚洲研究院的最新研究——FlexCAD、CADFusion 和 CAD-Editor。它们分别从统一建模框架、视觉反馈机制和自然语言编辑功能三个层面,逐步推动了 CAD 建模的智能化发展。这些创新不仅显著提升了建模效率,还让使用者能够更加专注于创意本身。
从笔记本电脑的铰链、电动自行车的车架,到喷气发动机的涡轮叶片,很多工业产品的零部件,其设计最初都源自一份可制造的三维模型(manufacturable 3D model)——参数化 CAD 文件(parametric CAD file)。这类文件不同于影视特效中的三角网格(mesh),或游戏中的体素(voxel grid),CAD 文件必须精确记录尺寸(exact dimension)与公差(tolerance),以便后续通过 CAM 软件、数控机床和检测设备,完成物理制造的过程。


相比于娱乐几何体,CAD 文件对结构严谨性和可编辑性的要求更高,是产品设计、制造流程中唯一的可信数据源。然而,CAD 建模流程本身有一个“致命”的瓶颈,例如,仅仅将四个钻孔改为三个,工程师可能就需要在盘根错节的建模文件中手动定位阵列参数、重新计算孔距和受力分布、核对加工公差,稍有不慎就可能导致整个模型崩溃。


在大语言模型(LLMs)已显著提升文本生成、代码编写和图像创作效率的背景下,业界开始探索:如果机械设计也能借助 AI 实现更自然、更高效的交互,将会带来怎样的变革?设想一个场景:用户只需说出“把这些孔的直径缩小2毫米”,AI 就能在几秒内生成无报错、可直接制造的 CAD 文件。


近期,微软亚洲研究院提出了三项最新研究,朝这一目标稳步推进。其一是构建一个能够覆盖全部建模层级的基础模型 FlexCAD(论文已被 ICLR 2025 收录);其二是可以使模型具备通过渲染图理解几何结构能力的 CADFusion(论文已被 ICML 2025 收录);其三是让 AI 能够理解并执行复杂自然语言指令的 CAD-Editor(论文已被 ICML 2025 收录)。通过这三项技术的协同推进,AI 有望显著简化 CAD 建模流程,让设计者、工程师和创客能够将更多精力投入到创意表达,而非繁复的操作中。


相关论文:

FlexCAD: Unified and Versatile Controllable CAD Generation with Fine-tuned Large Language Models,ICLR’25

https://arxiv.org/abs/2411.05823


Text-to-CAD Generation Through Infusing Visual Feedback in Large Language Models,ICML’25

https://arxiv.org/abs/2501.19054


CAD-Editor: A Locate-then-Infill Framework with Automated Training Data Synthesis for Text-Based CAD Editing,ICML‘25

https://arxiv.org/abs/2502.03997


代码链接:

https://github.com/microsoft/FlexCAD





AI重塑CAD建模:更自然的交互、更高效的创作


作为连接概念与制造的关键枢纽,CAD 建模效率的提升,将能够显著优化整个供应链:专业工程师可以减少返工,将更多时间投入到真正的工程权衡中;初创企业能够更快地将产品推向市场;未经训练的创客也能轻松参与产品设计。对于 AI 研究者而言,参数化 CAD 是一个严谨而丰富的“沙盒”,模型必须同时推理几何结构、物理约束、可制造性与美学因素,为多模态大模型提供了超越文本与图像的实验场。


几十年来,工程师仍需在 CAD 的特征树间步步为营,担心前序建模更改会“牵一发而动全身”。宏脚本仅适用于极少数可预测的重复场景,一旦需求变化便全线失灵。早期 “AI for CAD” 的方法虽可自动补草图、补拉伸,但要为不同层级训练各自的子模型,拼接复杂,且无法反映使用者的设计意图,生成结果难以被引导,更难以落地。


本质上,参数化 CAD 文件是一组命令的集合——画轮廓、拉伸、倒角……。若将每步标记为令牌,那么大语言模型便有望解析 CAD 文件、推理空间关系、生成可制造的 CAD 文件。围绕这一潜力,微软亚洲研究院提出了三个层层递进、互补协同的研究路径。


FlexCAD: 用单一模型打通六大建模层级


传统可控 CAD 生成存在“多模型、难维护”的痛点。而 FlexCAD 打破了这一局限,提出了单一模型一次微调即可覆盖全部建模层级的统一框架。


研究员们首先把 CAD 模型编码为结构化文本,每条曲线(如直线、圆弧等)及其几何参数离散为令牌,并借助层级分隔符依次将其拼接为“曲线 → 环 → 面 → 草图 → 拉伸 → 草图-拉伸对”的六级序列,使整个零件浓缩为数百个大语言模型可识别的符号。


接着,研究员们通过层级感知遮盖策略,在训练中随机选取任一层级字段(可能是一条曲线,也可能是一整段草图,甚至整个拉伸体)用 替换,并要求大语言模型恢复被遮盖内容。由于遮盖层级可在六级结构间灵活切换,因此模型一次微调便能够学会“按需”补全任意细节。推理阶段也同样简单:将待修改的 CAD 转换成文本,把目标区域替换为 后输入 FlexCAD,即可生成满足几何约束的新指令序列。这一策略使模型能够灵活完成局部补全任务,无需专门针对草图、面或曲线训练多个子模块。


实验表明,FlexCAD 在生成质量与控制精度上均超越现有方法,实现了高质量、高灵活性的 CAD 建模统一范式。


图1:FlexCAD 原理图


CADFusion:让模型既懂“写代码”,又会“看渲染图”


仅靠结构化序列描述 CAD 模型还远远不够,真正决定零件可制造性和审美价值的是渲染其外观,而这在纯文本形式中往往难以体现。CADFusion 通过两个阶段交替训练,让模型同时具备“写指令”与“看效果”的能力:


1. 序列学习阶段:使用真实的参数化序列监督大语言模型,确保其生成的 CAD 指令逻辑连贯且语法完备。


2. 视觉反馈阶段:将候选序列渲染成图像,交由大型视觉-语言模型评估外观的优劣,并利用直接偏好优化(direct preference optimization),让模型学会“什么样的外观看起来更好”。


两个阶段反复交替,既保留了序列信号的结构优势,又可以持续注入视觉偏好,使模型在两种信号间达到平衡。实验结果显示,CADFusion 在定量指标与人类评估质量上均大幅领先,且时间和成本仅依赖自动生成的视觉评分即可扩展至大规模训练。


图2:CADFusion 原理图


CAD-Editor:用自然语言“精修”复杂模型


生成新零件的模型只是一个起点,工业流程里更常见的需求是设计的反复迭代。CAD-Editor 首次把这一任务系统化,提出先定位再填充(locate-then-infill) 两阶段框架,并用全自动流程构建大规模训练数据:


1. 自动三元组数据管线:用变体生成模型先构建出“原模型-编辑后模型”对,再由大型视觉-语言模型对比两版渲染图,并用自然语言描述其差异,无需人工成本即可获得高质量“自然语言指令、原模型、编辑后模型”三元组,从而解决了标注瓶颈。


2. 先定位再填充双模型架构:定位器(locator) 读取“原模型+自然语言指令”,在有修改必要的范围插入 ;填充器(infiller) 仅在 内部生成新的 CAD 指令,实现“精确遮盖 + 最小改动”,其余 CAD 模型保持完好。


经公开基准测试,CAD-Editor 在几何一致性、构建成功率与人工偏好上均显著超越 GPT-4o 等单步基线,且框架对多样编辑场景高度泛化。


图3:CAD-Editor 原理图


智能建模的时代已开启


当参数化 CAD 文件成为 AI “可读可写”的语言后,大语言模型将不仅仅是一个工具,更是具备理解力、创造力和协作能力的设计伙伴。而这场变革所影响的领域也远不止机械制造,在建筑设计领域,AI 可辅助生成、迭代复杂的建筑结构,支持空间布局和可持续设计;在工业设计和消费电子领域,AI 可协助快速推敲产品外观与结构,实现从创意到量产的无缝衔接;在教育和创客空间,复杂建模将变得触手可及,进而激发更多创新与跨界合作;甚至在艺术与可视化领域,AI 驱动的建模将拓展三维创作的边界。


未来,不论是工程师、创客还是学生、艺术家,都可以借助 AI 释放自己的设计潜力。可制造三维的智能设计时代才刚刚启程,属于每个人的创意设计新篇章正在徐徐展开。




微软亚洲研究院新书《无界》上市


当面对集体性的难题时,思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书,正是献给这个时代的探索指南。


包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作,他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展,分享了前沿的展望、观点以及宝贵的科研经验。


本书已获得十余位全球顶尖学者的推荐,其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者,以及微软亚洲研究院的杰出院友。


现在,《无界——透视微软创新研究之境》已全平台火爆开售!首批读者将获得限量版微软50周年书签,书签上的文章作者亲笔签名将随机呈现,盲盒式惊喜等你开启!


立即点击下方链接,开启你的专属阅读之旅!













你也许还想看:




文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

CAD建模 人工智能 FlexCAD CADFusion CAD-Editor
相关文章