單圖直出CAD工程文件!CVPR 2025新研究解決AI生成3D模型「不可編輯」痛點|魔芯科技NTU等出品

CADCrafter團隊 投稿

量子位 | 公眾號 QbitAI

張圖直接就能生成可編輯的CAD工程文件

來自魔芯科技、NTU等的研究人員提出圖生3D新框架,名為CADCrafter

CADCrafter和過去得到網格(Mesh)或3D高斯潑濺(3DGS)的圖生3D方法大不相同。

不管是零件渲染圖,還是拍攝的3D打印零件,甚至是隨意拍攝的日常生活中的物體,CADCrafter均能夠生成的對應的原始CAD文件(以CAD指令的方式表示,包括表徵每個幾何特徵的指令和對應參數)

並且通過CAD編譯器進行編譯,可得到直接生產加工的3D文件(如STP格式的文件)

用戶可以通過編輯CAD指令實現對物體的編輯(下圖右)

實驗中,從落地實用性、表面質量等特點來看,CADCrafter相較於目前的圖生3D方法均有顯著提升。

這項研究的作者來自KOKONI 3D(魔芯科技)、新加坡南洋理工大學、新加坡A*STAR、西湖大學、德州大學奧史甸分校和浙江大學。

通訊作者為魔芯科技創始人Tianrun Chen和新加坡A*STAR研究科學家Fayao Liu。

論文已被CVPR 2025接收。

以下是更多細節。

從圖像到高質量CAD模型的端到端生成流程

在現實世界中,大多數人造物體最初都是通過計算機輔助設計(CAD)軟件以參數化的方式建模的。

然而,如今大熱的3D AI生成內容(3D AIGC)技術,例如TRELLIS等方法,大多仍依賴於「網格模型」(Mesh)作為基礎。

問題也隨之而來。

相比CAD的參數化設計,網格模型不僅難以理解,更難精確編輯。用戶想要修改一個小部件的尺寸?在CAD中只需調整參數,在網格模型中卻可能要大動干戈。

而且,這些AI生成的網格模型表面常常不夠光滑,邊緣也不夠銳利,尤其是使用像Marching Cubes這樣的算法從隱式函數轉換生成網格時,幾何質量更容易受到影響。

這種粗糙不清的表面,在需要高質量渲染或動畫的應用中,顯得格外捉襟見肘。

相比之下,CAD的參數化模型則提供了極高的可控性和精度。它們允許用戶直接通過參數調整幾何形狀,實現快速且精準的修改,大大提升了設計的靈活性與可解釋性。

CADCrafter就率先嘗試了從Image-to-Mesh到Image-to-CAD的範式轉變。

方法概述如下:

1. 基於VAE與Diffusion Transformer的隱空間生成框架

CADCrafter採用了一種結合VAE與擴散模型的兩階段生成架構。

首先,團隊訓練了一個變分自編碼器(VAE,將CAD指令序列映射到一個結構化的隱空間。

接著,在該隱空間中引入條件擴散生成過程:基於Diffusion Transformer(DiT)架構,訓練一個擴散生成大模型,輸入條件為用戶提供的圖像,從而實現圖像引導下的CAD隱空間采樣與生成。

2. 蒸餾策略:從多視圖到單視圖的高效建模轉移

考慮到從單張圖像重建CAD模型的挑戰性,團隊首先構建了一個多視圖輸入的DiT生成模型,以更穩定地學習圖像到CAD空間的映射關係。

隨後,通過引入蒸餾機制(使用Ldistill損失),將多視圖模型的知識遷移到單視圖模型中,從而實現了僅基於單張圖像進行高質量CAD生成的能力。

3. 引入基於DPO的可編譯性代碼檢查機制

在CAD生成過程中,CAD指令還需經過CAD內核(CAD Kernel)解析,才能生成可視的3D模型。

然而,若生成指令存在語義錯誤,例如不閉合曲線等問題,模型構建將直接失敗。

為解決這一關鍵挑戰,作者設計了一個代碼合理性判別模塊,用於判斷生成的CAD代碼是否能夠被成功編譯。

作者進一步採用DPO(Direct Preference Optimization)損失,引導模型傾向於生成更可編譯、幾何結構完整的CAD指令,從而顯著提升最終3D模型生成的成功率與實用性。

渲染零件、拍攝的3D打印零件等均能重建

研究團隊選取多個標準CAD模型,使用KOKONI SOTA 3D打印機將其打印成實物,並通過拍照獲取圖像輸入。

實驗表明,CADCrafter能夠基於單張圖像,準確生成結構清晰、符合幾何特徵的CAD建模指令,其生成效果在細節還原度方面優於現有方法。

拍攝日常生活中的物體,CADCrafter也能直接生成其設計製造時可用的工程文件,其表面平面度、棱角等細節均符合物體被生產加工製造時的特點(良好表面、尺寸和幾何特徵均可編輯)

這一成果不僅展示了CADCrafter在建模精度上的突破,也展現了其在實際應用場景中的可行性。

例如,在製造與維修領域,工程師可通過拍攝現有零件照片,快速生成可編輯的CAD模型,進而加速原型設計或零件重建流程。

團隊相信,CADCrafter為AI輔助工業設計提供了新的解決方案,其從Image-to-Mesh到Image-to-CAD的範式轉變,有助於推動圖像驅動的AI 3D建模向真正可落地應用邁出關鍵一步。

論文鏈接:https://arxiv.org/pdf/2504.04753

一鍵三連「點讚」「轉發」「小心心」

歡迎在評論區留下你的想法!