「3D影片版Sora」來了！

07月25日 18:47 新浪網 news-china-auto-hilite

40秒生成3D影片，Stability AI開源首個影片生影片模型。

作者 | 香草

編輯 | 李水青

輸入單個物體影片，就能獲取任意拍攝視角的全視圖3D動態影片了！

智東西7月25日消息，昨日晚間，AI獨角獸Stability AI推出其首個影片生影片（video-to-video）模型Stable Video 4D（SV4D），該模型能夠將單個物體的影片輸入，轉換為8個不同視角的多個新影片，用戶可任意指定攝像機角度。

▲輸出全視圖影片演示

目前，SV4D可以通過一次推理，在約40秒內生成8個視圖的各5幀影片，整個4D優化需要20-25分鐘。該模型已在Hugging Face上開源，適用於遊戲開發、影片編輯、虛擬現實（VR）等場景的應用，可免費用於研究、非商業用途。

SV4D技術論文也同步發表，研究團隊由Stability AI和東北大學學者組成，其中詳細解讀了該模型的框架結構、優化策略、測評結果等。

▲SV4D論文

Stability AI從2019年成立起，就致力於研發文字、圖像、音頻、影片等多個領域的開源模型，其在2022年躋身獨角獸行列。雖然從去年以來它就陷入尋求賣身、核心技術團隊離職、CEO卸任等困境，但即便如此也沒能打斷其不斷開源新模型的腳步。

今年6月，Stability AI在債台高築的情況下獲得前Facebook總裁Sean Parker等投資者的8000萬美元注資，並迎來了新任CEO——前Weta FX（維塔數碼）負責人Prem Akkaraju。自Akkaraju上任以來，Stability AI在一個月內又接連發佈聊天機器人Stable Assistant、音頻生成模型Stable Audio Open以及此次發佈的SV4D。

論文地址：

https://arxiv.org/abs/2407.17470

Hugging Face開源地址：

https://huggingface.co/stabilityai/sv4d

01.

基於SVD升級4D框架

40秒生成多視角影片

SV4D主要用在3D模型的多視角影片生成。其輸入為單個物體的單視角影片，輸出為同一物體8個不同角度的多視角影片。

據介紹，該模型以圖生影片模型Stable Video Diffusion（SVD）為基礎，實現了從圖生影片到影片生影片的能力飛躍。

具體運行時，用戶首先上傳一段影片並指定所需的攝像機角度，SV4D會根據指定的攝像機視角生成8個新視角影片，從而提供拍攝對象的全面、多角度影片。生成的影片可用於優化拍攝對象的動態表示，適用於遊戲開發、影片編輯、VR等場景的應用。

▲SV4D輸入輸出

目前，SV4D仍處於研究階段，可在40秒左右的時間內生成8個視角各5幀影片，整個4D優化流程約耗時20-25分鐘。

以往用於多視角影片生成的方法，通常需要從圖像擴散模型、影片擴散模型和多視圖擴散模型的組合中進行采樣，而SV4D能夠同時生成多個新視圖影片，大大提高了空間和時間軸的一致性。此外，該方法還可以實現更輕量的4D優化框架，而無需使用多個擴散模型進行繁瑣的分數蒸餾采樣。

▲SV4D與其他方法對比

與其他方法相比，SV4D能夠生成更多樣的多視圖影片，且更加細緻、忠實於輸入影片，在幀和視圖之間保持一致。

SV4D是Stability AI推出的首個影片到影片生成模型，已在Hugging Face上開源發佈。Stability AI稱，團隊仍在積極完善該模型，使其能夠處理更廣泛的現實世界影片，而不僅僅是用於訓練的合成數據集。

02.

混合采樣保持時間一致

4D生成全面超基準線

SV4D的技術論文也同步發表，其中詳細解讀了該模型的框架結構。

總的來說，SV4D是一個用來生成動態3D對象新視圖影片的統一擴散模型。給定一個單目參考影片，SV4D為每個影片幀生成在時間上一致的新視圖，然後使用生成的新視圖影片來有效地優化隱式4D表示，而不需要基於分數蒸餾采樣的優化。

▲SV4D框架概述及生成的4D資產

▲SV4D框架概述及生成的4D資產

SV4D的模型結構如下圖。基於相機條件，SV4D將相機視點的正弦嵌入傳遞給UNet中的卷積塊，並在空間和視圖注意力塊中，使用輸入影片進行交叉注意力條件設定。為了提高時間一致性，SV4D引入了一個額外的運動注意力塊，並以第一幀的相應視圖為交叉注意力條件。

▲SV4D模型結構

為了在保持時間一致性的同時，擴展生成的多視圖影片，研發團隊在推理過程中提出了一種新穎的混合采樣策略。

首先，SV4D采樣一組稀疏的錨定幀，然後將錨定幀作為新的條件圖像，對中間幀進行密集采樣/插值。為了確保連續生成之間的平滑過渡，SV4D在密集采樣期間，交替使用時間窗口內的第一幀前向幀或最後一幀後向幀進行條件設置。

▲SV4D模型采樣

在框架的優化上，SV4D使用參考多視圖圖像的第一幀，優化由多解像度哈希網格以及密度和顏色多層感知機（MLP）表示的靜態NeRF，然後解凍時間變形MLP，並使用隨機采樣的視圖和幀來優化動態NeRF。

▲優化框架概述

為了訓練統一的新視圖影片生成模型，SV4D研發團隊從現有的Objaverse數據集中整理了一個動態3D對象數據集。在多個數據集上的實驗結果和用戶研究表明，與之前的工作相比，SV4D在新視圖影片合成以及4D生成方面具有最先進的性能。

▲ObjaverseDy數據集上4D輸出的評估

▲ObjaverseDy數據集上4D輸出的評估

在ObjaverseDy數據集上的4D輸出評估中，SV4D在所有指標方面優於基線，在視覺質量（LPIPS和CLIP-S）、影片幀一致性（FVD-F）、多視圖一致性（FVD-V）和多視圖影片一致性（FVD-Diag和FV4D）方面都擊敗了此前的模型。

03.

結語：Stability AI多模態再添新佈局

Stability AI以文生圖開源模型起家，在文本、影片、3D等多個模態上都有所佈局。此次開源SV4D，是其在3D+影片生成兩個方向上的共同進展。

儘管該模型目前仍處於前期研究階段，但它在各指標表現出的優秀能力和模型架構上的創新思路，為未來的發展開闢了廣闊的前景。隨著模型的迭代和優化，SV4D有望在遊戲、VR等更多領域的應用發揮重要作用。