一句話一張圖秒變3D動畫,4K級超清畫質,英偉達祭出新作,遊戲生成世界成真

英偉達團隊再次於自己的老本行大發光彩。近日發佈的Edify 3D支持用戶從文本提示或者圖像來直接生成4K級別的3D實體與場景,這再次為遊戲與影視設計行業注入了新的AI活力。

不滿足於只是自己在紙上照著自己的想法去寫寫畫畫,但是又沒精力去學習專業的3D建模技能,怎麼破?

你有曾想過,僅僅通過文字描述自己的想像,就可以將其創造為解像度高達4K的實體3D模型嗎?

現在,你可以通過Nvidia發佈的Edify 3D實現你的奇思妙想了!只要你具有足夠好的創意,甚至可以利用Edify 3D來創造出經典的遊戲、電影的3D模型實體,例如有趣的小黃人。

請看官方影片展示,用戶只是進行文字描述,Edify 3D就可以即時生成高清的3D佈景、頭骨、烏龜等3D實體。

由於創建3D內容需要相關的專業技能和專業知識,這使得此類資產比圖像和影片等其他視覺媒體稀缺得多。這種稀缺性引出一個關鍵的研究問題,即如何設計可擴展的模型以有效地從這些數據中生成高質量的3D資產。

Edify 3D可在2分鐘內根據文本描述或者前景圖像生成高質量的3D資產,其提供詳細的幾何圖形、清晰的形狀拓撲、井然有序的UV映射、高達4K解像度的紋理以及基於物理的材質渲染。與其他文本到3D方法相比,Edify 3D始終如一地生成卓越的3D形狀和紋理,在效率和可擴展性方面都有顯著改進。

Edify 3D的流程Edify 3D的流程

Edify 3D的流程為:在給定對於3D實體對象的文字描述後,多視圖擴散模型會合成描述對象的RGB外觀。然後,生成的多視圖RGB圖像被用作使用多視圖ControlNet合成表面法線的條件。接下來,重建模型將多視圖RGB和正常圖像作為輸入,並使用一組潛在標記預測神經3D表示。然後進行等值面提取和隨後的網格後處理,以獲得網格幾何。放大的ControlNet用於提高紋理解像度,對網格光柵化進行調節以生成高解像度多視圖RGB圖像,然後將其反向投影到紋理貼圖上。

多視圖擴散模型

創建多視圖圖像的過程類似於影片生成的設計的我們通過使用相機姿勢調節文本到圖像模型,將它們微調為姿勢感知多視圖擴散模型。這些模型將文本提示和攝像機姿勢作為輸入,並從不同的視點合成對象的外觀。

跨視圖注意力跨視圖注意力

研究者在模型訓練時,訓練了以下模型:

  • 基於多視圖擴散模型,該模型根據輸入文本提示合成RGB外觀以及相機姿態。
  • 多視圖ControlNet模型,該模型基於多視圖RGB合成和文本提示來合成物體的表面法線。
  • 多視圖上采樣控制網絡,該網絡在給定3D網格的柵格化紋理和表面法線條件下,將多視圖RGB圖像超解像度提升至更高解像度。

研究者使用Edify Image模型作為基礎擴散模型架構,結合一個具有27億參數的U-Net,在像素空間中進行擴散操作。ControlNet編碼器使用U-Net的權重進行初始化。他們通過一種新機制擴展了原始文本到圖像擴散模型中的自注意力層,以關注不同視圖,從而使得其作為具有相同權重的影片擴散模型。通過一個輕量級MLP對相機姿態(旋轉和平移)進行編碼,隨後將這些編碼作為時間嵌入添加到影片擴散模型架構中。

研究者在3D對象的渲染圖上微調文本到圖像模型。在訓練過程中,他們同時使用自然2D圖像以及隨機數量(1、4和8)的視圖的3D對象渲染圖進行聯合訓練。使用

參數對損失進行訓練,與基礎模型訓練中使用的方法一致。對於多視圖ControlNets,首先使用多視圖表面法線圖像訓練基礎模型。隨後,我們添加一個以RGB圖像為輸入的ControlNet編碼器,並在凍結基模型的同時對其進行訓練。

關於視圖數量擴展的消融研究

在訓練過程中,研究者會對每個訓練對象抽取1、4或8個視圖,為每個視圖分配不同的抽樣比例。雖然可以在推理過程中采樣任意數量的視圖,以使用不同數量的視圖進行訓練,但最好還是將訓練視圖與推理過程中預期的視圖數量相匹配。這有助於最大限度地縮小訓練和推理性能之間的差距。

研究者對比了兩個模型:一個主要在4視圖圖像上訓練,另一個在8視圖圖像上訓練,並在相同視角采樣10視圖圖像。如下圖所示,與使用4視圖圖像訓練的模型相比,使用8視圖圖像訓練的模型生成的圖像更自然,各視圖之間的多視圖一致性更好。

使用四個視圖的圖像進行訓練的模型

使用八個視圖的圖像進行訓練的模型使用八個視圖的圖像進行訓練的模型

重建模型

從圖像觀測中提取3D結構通常被稱為攝影測量,該技術已被廣泛應用於許多3D重建任務中。研究者使用基於Transformer的重建模型從多視圖圖像中生成3D網格幾何形狀、紋理圖和材質圖。他們發現,基於Transformer的模型對未見過的物體圖像表現出強大的泛化能力,包括從2D多視角擴散模型合成的輸出。

研究者使用僅解碼器的Transformer模型,以三平面作為潛在3D表示。輸入的RGB和法線圖像作為重建模型的條件,在三平面標記和輸入條件之間應用交叉注意力層。三平面標記通過MLP處理以預測用於簽名距離函數(SDF)和PBR屬性的神經網絡場,用於基於SDF的體積渲染。神經網絡SDF通過等值面提取轉換為3D網格。PBR屬性通過UV映射烘焙到紋理和材質圖中,包括漫反射顏色和如粗糙度和金屬通道等材質屬性。

研究團隊使用大規模圖像和3D資產數據來訓練重建模型。該模型通過基於SDF的體積渲染在深度、法線、掩碼、反射率和材質通道上進行監督,輸出由藝術家生成的網格渲染。由於表面法線計算相對昂貴,所以需要僅在表面計算法線並對真實情況進行監督。

他們發現將SDF的不確定性與其對應的渲染解像度對齊可以提高最終輸出的視覺效果。此外,還需要在損失計算期間屏蔽物體邊緣以避免由混疊引起的噪聲樣本。為了平滑樣本間的噪聲梯度,他們對最終重建模型權重應用了指數移動平均(EMA)。

重建模型方面的消融研究

研究者發現,重建模型在恢復輸入視圖方面始終比新視圖更準確。該模型在視點數量方面具有良好的擴展性,即隨著提供更多信息,其性能得到提升。

輸入視圖數量的比較輸入視圖數量的比較

對角線單元格表示輸入視圖與驗證視圖匹配的情況。這些對角線條目通常顯示每行的最佳結果,表明模型最準確地複製了輸入視圖。此外,隨著輸入視圖數量從4增加到16,結果持續改善。這表明重建模型從額外的輸入信息中受益,同時也證明了Edify 3D的重建模型的可擴展性。

受模型隨視點數量擴展的啟發,研究者進一步研究訓練視點數量是否影響重建質量。他們使用固定的8視圖設置評估模型,其中模型使用4、6、8和10個視圖進行訓練。

結果如下圖(a)所示。儘管隨機采樣相機姿態在訓練過程中提供了多樣化的視圖,但隨著同一訓練步驟中訓練視圖數量的增加,重建質量仍在持續提高。圖(b)為標記數量的比較,它表明了在參數數量固定的情況下,模型需要更多的計算資源來處理更多的標記。

數據處理

Edify 3D在非公開的大規模圖像、預渲染的多視圖圖像和3D形狀數據集的組合上進行訓練。原始3D數據經過幾個預處理步驟,以達到模型訓練所需的品質和格式。

數據處理流程的第一步是將所有三維圖形轉換為統一格式。首先對網格進行三角化處理,打包所有紋理文件,丟棄紋理或材質已損壞的圖形,並將材質轉換為金屬粗糙度格式。通過這一過程,用戶將得到一組三維圖形,可以按照其意圖進行渲染。

對於數據來講,必要的一環是進行數據質量篩查。研究者從大型三維數據集中過濾掉非以物體為中心的數據,且從多個視角渲染形狀,並使用分類器去除部分三維掃瞄、大型場景、形狀拚貼以及包含輔助結構(如背景和地平面)的形狀。為確保質量,這一過程通過多輪主動學習進行,由人類專家不斷製作具有挑戰性的示例來完善分類器。此外,他們還採用基於規則的過濾方法,去除明顯存在問題的形狀,如過於單薄或缺乏紋理的形狀。

為了將3D數據渲染成圖像以用於擴散和重建模型,研究團隊需要使用自研的光照追蹤器進行逼真渲染。他們採用多種采樣技術來處理相機參數。一半的圖像以固定的仰角和一致的內參進行渲染,而賸餘的圖像則使用隨機的相機姿態和內參進行渲染。這種方法既適用於文本到 3D 用例,也適用於圖像到 3D 用例。

而對於3D實體的動作模擬來講,則需要將模型和真實的實體進行標準姿勢對齊。姿勢對齊是通過主動學習實現的。研究者通過手動策劃少量示例,來訓練姿勢預測器,並在完整數據集中不斷利用困難示例來完成循環訓練。

為了給3D形狀添加字幕,團隊為每個形狀渲染一張圖像,並使用視覺語言模型(VLM)為圖像生成長句和短句字幕。為了提高字幕的全面性,他們還向VLM提供形狀的元數據(例如標題、描述、分類樹)。

結果

團隊通過輸入文本提示以及渲染,使得生成的3D模型包含詳細的幾何形狀和清晰的紋理,具有良好分解的反射顏色,使其適用於各種下遊編輯和渲染應用。

文本到3D生成結果文本到3D生成結果

對於圖像到3D生成,Edify 3D不僅能夠準確恢復參考對象的底層3D結構,而且還能在輸入圖像中未直接觀察到的表面區域生成詳細的紋理。

圖像到3D生成結果圖像到3D生成結果

Edify 3D生成的資產以四邊形網格的形式呈現,拓撲結構組織良好,如下圖所示。這些結構化網格便於操作和精確調整,非常適合各種下遊編輯任務和渲染應用。這使它們能夠無縫集成到需要視覺真實性和靈活性的3D工作流程中。

四邊形網格拓撲四邊形網格拓撲

總的來說,Edify 3D是一種針對高質量3D資產生成的解決方案。其研究團隊致力於推進和發展3D資產自動化生成的新工具,使3D內容創作更加易於。

參考資料:

https://research.nvidia.com/labs/dir/edify-3d/

本文來自微信公眾號「新智元」,作者:澤正,36氪經授權發佈。