5秒內快速生成、直出工業級PBR資產,三維擴散模型3DTopia-XL開源

AIxiv 專欄是機器之心發佈學術、技術內容的欄目。過去數年,機器之心 AIxiv 專欄接收報導了 2000 多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯繫報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

是否還在苦惱於開源圖生 / 文生三維模型無法直接嵌入到 CG 工作流中?是否在尋找具備高質量幾何與物理材質的三維生成大模型?

最近,上海人工智能實驗室(Shanghai AI Lab)南洋理工大學(NTU)共同推出了新一代的三維生成大模型 3DTopia-XL,能夠從圖片或文字單階段直出具有 PBR(物理渲染)材質的高質量三維數字資產。

在技術細節上,通過採用全新的三維表徵 PrimX 以及基於 DiT 的生成架構,具有 10 億規模參數的 3DTopia-XL 能夠在 5 秒內完成從圖像或文本生成具有物理材質屬性的超寫實三維模型,生成結果作為 GLB 格式的三維資產可以無縫導入到主流遊戲引擎和工業設計軟件的管線中服務於下遊應用。

3DTopia-XL 已將代碼、預訓練模型和技術報告開源,並且近期還會持續更新其他模態作為輸入的預訓練模型。

  • 代碼鏈接:https://github.com/3DTopia/3DTopia-XL

  • 在線 Demo:https://huggingface.co/spaces/FrozenBurning/3DTopia-XL

  • 技術報告:https://arxiv.org/abs/2409.12957

  • 論文標題:3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion

在項目開源的這幾天,廣大網民也是第一時間湧入官方提供的在線 Demo,上傳自己的圖片進行試玩。其中 Huggingface 的產品設計總監 Victor 更是第一時間就進行了嘗試,他隨意上傳了一張圖片給 3DTopia-XL,模型經過處理返回給他了一個高質量的三維模型,同時還是帶材質的那種!他也將試玩錄屏上傳到 X 上分享給廣大網民:

小編也嘗試了一下在線 demo,比如輸入一張橘子做的小象的創意圖片,生成的三維物體幾何質量很高,同時右下角的交互視窗能夠支持更換不同環境光照圖來渲染輸出的 GLB 格式資產:

技術概覽

通過深扒技術報告,小編髮現 3DTopia-XL 的核心技術是一種被稱為 PrimX 的全新三維表徵,彌補了三維數據沒有高效張量化表徵的空白,從而實現對最具可擴展性的擴散模型框架 DiT 的支持。

具體而言,3DTopia-XL 採用的是一種創新的三維擴散大模型直出技術,可實現超寫實工業級三維資產的秒級生成3DTopia-XL 採用 PrimX 作為一種符號距離場的高效幾何表徵方式,將三維物體表徵為若幹個 Primitive 的集合。每個 Primitive 僅在形狀邊界鄰域內對局部幾何、紋理和材質進行聯合建模,從而將一個三維資產的所有信息(幾何、紋理、材質)表示為若幹個固定長度的 token,完成了三維數據的高質量結構化。

這樣的方法不僅大幅減少了表示三維物體所需的參數量,提高了參數利用效率,而且還便於 DiT 基模型的規模擴展。

在基模型層面,為了實現高質量的三維生成能力,3DTopia-XL 提出了一個包含 10 億參數且計算高效的三維擴散模型。其中 PrimX 作為將三維物體高效地轉化為基於符號距離場的表達,會進一步通過變分自編碼器對每個體積基元進行壓縮編碼。通過 DiT 架構的引入,使得模型能夠在隱空間中進行大規模可擴展的訓練(Latent Primitive Diffusion),從而實現通過單張圖像輸入生成三維物體的通用能力。

得益於符號距離場的良好性質,3DTopia-XL 生成的三維內容具備光滑的表面、精細的結構以及良好的拓撲,接近手工建模質量。通過 DDIM 采樣策略,3DTopia-XL 可以實現 5s 內完成去噪過程。

實驗結果

定量對比上,3DTopia-XL 在三維生成標準評測指標超越現有的開源模型,CLIP score 上取得 24.33,超越 ShapE(21.98),也高於 3DTopia 第一版的 22.54,展現出了三維內容創作方面的巨大潛力。

同時,作者從四個維度(整體質量、幾何平滑度、輸入相關度和渲染正確性)對於圖生三維模型輸出的數字資產在工業管線中進行了用戶評測(如下圖所示),3D-Topia-XL 在各維度上均超越了 InstantMesh、LGM、CRM 等基於重建的主流方法。

定性對比上,作者對比了主流的基於重建的方法(標紅)以及原生三維擴散模型(標黃),並在對比策略上採用直接將 mesh 導入渲染引擎進行對應環境下的渲染,來驗證三維生成模型的實際可用性。如下圖所示,得益於 3DTopia-XL 的高質量幾何以及材質建模,其展示出的渲染效果和生成質量都超過一系列基線方法。

同時作者還驗證了三維生成模型上的尺度定律(Scaling Law),增加訓練計算量和增大模型尺寸都會帶來生成性能的進一步提升(以 FID 下降為趨勢特徵)。

得益於 PrimX 表徵的通用性,使得模型能夠同時編碼幾何、紋理及材質,完成一站式三維生成引擎可用的數字資產,擺脫了多階段獨立建模的繁瑣步驟。我們發現,3DTopia-XL 生成的數字資產可以直接導入 Blender,UE 等圖形引擎在任意環境下進行渲染。其高質量 PBR 建模使得生成的數字資產展示出高質量反光效果,實現了與環境的無縫融合。

除了圖生三維模型以外,3DTopia-XL 還會在不久的未來提供多模態輸入支持,包括文生三維模型和多視角重建模型,為三維內容創作提供了全面的解決方案套裝。

© THE END