首個檢索增強3D生成模型!實現各種模態生成大一統:文&圖&3D都可以

王振偉 投稿自 凹非寺

量子位 | 公眾號 QbitAI

3D生成也能支持檢索增強(RAG)了。

有了檢索到的參考模型之後,3D生成效果更好,還具有極強的泛化性和可控性。

比如像這張,它生成幾何質量得到了極大的改善。

還可以實現主題一致的3D到3D生成,僅需自參考輸入的3D模型即可支持該功能。之前的相關研究需要約1小時,現在壓縮不到10秒。

來自香港城市大學、上海人工智能實驗室、香港中文大學和南洋理工大學S-Lab的研究人員提出了一種名為Phidias的新3D生成框架。

該框架將語言和圖像生成領域中常見的檢索增強生成(RAG)引入3D生成。

Phidias是一種參考增強的擴散生成模型。

該模型統一了文生3D、圖生3D和3D到3D生成等任務,其利用檢索到的或用戶提供的3D參考模型來指導3D生成過程,從而提高了生成質量、泛化能力和可控性。

Phidias包含三個關鍵組件:

  • 1)用於動態調節控制強度的元控制網絡(meta-ControlNet);

  • 2)用於減輕輸入圖像和3D參考模型衝突的動態參考路由模塊(dynamic reference routing);

  • 3)用於支持高效自監督學習的自我參考增強模塊(self-reference augmentation)。

首個檢索增強3D生成模型

本文主要貢獻包括:

  • 提出了首個基於3D參考的、3D感知的多視圖擴散生成模型。

  • 提出了三個關鍵組件以增強算法的性能。

  • 本文用單個算法統一了可控的文生3D、圖生3D和3D到3D生成等任務,支持各種可控3D生成的下遊任務。

  • 大量實驗表明,本文提出的算法在定量和定性的比較評估中都顯著優於已有算法。

Phidias通過兩階段來生成3D模型:1)基於參考增強的多視圖生成;2)基於稀疏視角的3D重建。

給定一張概念圖,Phidias利用額外的3D參考模型來緩解3D生成過程中存在的3D不一致和幾何不確定性等問題。

基於不同的應用場景,算法所使用的3D參考模型可以由用戶提供,也可以從大型3D數據庫中獲取。

第一階段: 基於參考增強的多視圖生成

在第一階段,Phidias的目標是將額外的3D參考模型引入預訓練的多視圖生成模型,以提高多視圖生成的3D一致性、泛化性和可控性。為了將3D參考模型集成到擴散模型的去噪過程中,研究人員將其轉化成多視圖正則坐標圖(Canonical Coordinate Maps, CCMs)來約束擴散模型。CCM將3D參考模型表麵點的3D位置坐標保存為RGB,僅保留了參考模型的幾何信息而移除了紋理信息。

選擇CCM作為3D表示主要出於兩點原因:

  • 1)相比於3D網格和體素,多視圖圖片自帶與輸出圖片相同的相機角度,因此將其作為2D擴散模型的輸入條件具有更好的效能和兼容性;

  • 2)3D參考模型通常與概念圖在幾何結構上相似,但在紋理上不同。

為了充分利用預訓練的多視圖生成模型,研究人員將預訓練網絡參數凍結,僅需訓練用於處理參考模型CCMs的條件網絡。該階段的一大挑戰是:3D參考模型在大部分情況下並不嚴格對齊於概念圖片,尤其是在局部細節上會有很大不同。

而傳統的ControlNet被設計用於嚴格對齊的圖像到圖像生成任務,並不適用於本文中基於3D參考的生成任務。

為瞭解決該問題,研究人員提出了三個關鍵組件來提升模型性能:

1)用於自適應控制強度的元控制網絡(meta-ControlNet)2)用於動態調整3D參考模型的動態參考路由模塊(dynamic reference routing)3)用於支持高效自監督學習的自我參考增強模塊(self-reference augmentation)

△元控制網絡(Meta-ControlNet)示意圖元控制網絡(Meta-ControlNet)示意圖

Meta-ControlNet由兩個協作的子網絡構成,即一個基礎控制網絡(Base ControlNet)和一個額外的元控製器(Meta-Controller)。

基礎控制網絡具有原始ControlNet的結構,其以參考模型的CCMs作為輸入來產生指導預訓練擴散模型的控制信號。元控製器具有跟基礎控制網絡相似的結構,但參數不同。它的工作機制是作為基礎控制網絡的「開關」,動態地根據概念圖和3D參考模型的相似度來調節控制信號強度。

元控製器的輸入是概念圖和3D參考的正面CCM,其輸出在兩方面控制基礎控制網絡:1)基礎控制網絡的多尺度下采樣塊;2)基礎控制網絡最終的輸出信號。

△參考路由模塊示意圖△參考路由模塊示意圖

參考模型通常在粗略形狀上與概念圖大致對齊,但在局部細節上存在顯著差異。由於生成過程同時依賴於概念圖和參考模型,他們之間的局部不一致性可能會導致混淆和衝突。

如上圖所示,為瞭解決該問題,研究人員提出了動態參考路由策略,其核心是基於擴散模型的去噪時間步,動態調整參考模型的解像度。低解像度的CCMs提供了較少的細節,但與概念圖的不一致性較低。通過在初始去噪階段(高噪聲水平)運用低解像度的CCMs,可以保證參考模型被用於輔助生成3D對象的全局結構,而不會產生重大沖突。之後,隨著去噪過程進入中、低噪聲水平,研究人員逐漸提高參考CCMs的解像度,從而幫助細化3D對象的局部細節,例如,尾巴隨去噪過程從直變彎。這種設計選擇可確保在多視角圖像生成過程中有效利用概念圖和3D參考,同時避免因衝突而導致生成質量下降。

此外,研究人員還提出自參考增強,以有效利用3D參考模型進行自監督訓練。該方案使用3D模型的渲染作為概念圖,並使用原3D模型本身作為參考模型和目標模型。

研究人員通過對原3D模型進行增強來模擬參考模型和概念圖之間未對齊的情況,並設計了漸進式的課程學習策略來訓練模型。這種方法解決了基於檢索的訓練集中參考模型與目標模型差異過大導致的學習困難問題,同時避免了直接使用自監督訓練無法模擬未對齊情況的問題。一旦訓練完成,本文的擴散生成模型在使用各種參考模型時都表現良好,即使是那些不太相似的來自檢索的參考模型。

第二階段:基於稀疏視角的3D重建

在第一階段生成的多視圖圖像的基礎上,本文通過基於稀疏視角的3D重建來獲得最終的3D模型。該階段可以建立在任意的稀疏視圖重建方法上。

更多效果

檢索增強的圖生3D

檢索增強的文生3D

主題一致的3D到3D生成

交互式3D生成:通過自定義的粗略3D形狀作為參考,用戶可以不斷調整所生成的3D模型的幾何結構。

高保真3D模型補全:預測和填充不完整3D模型的缺失部分,同時通過自參考原始3D模型來保持原有結構的完整性和細節。

項目主頁:項目主頁:

https://RAG-3D.github.io/

代碼:

https://github.com/3DTopia/Phidias-Diffusion