Meta新影片生成框架拿捏倒立雜技,雙人舞也能完美同步!運動一致性暴增近20%,可無縫集成DiT模型
基爾西 發自 凹非寺
量子位 | 公眾號 QbitAI
針對影片生成中的運動一致性難題,Meta GenAI團隊提出了一個全新框架VideoJAM。
VideoJAM基於主流的DiT路線,但和Sora等純DiT模型相比,動態效果直接拉滿:

哪怕變化又大又迅速、動作又複雜的舞蹈,也看起來像真的一樣,而且還是兩個人同步:

像倒立這樣的操作,同樣可以輕鬆駕馭:

而且不需要額外數據或縮放,就能無縫集成到不同規模的DiT模型當中,帶來運動效果的提升。
有網民表示,第一眼看上去就和真的一樣,也許到今年年底,我們看不到區別了。

運動效果超越Sora、Gen3
VideoJAM在處理運動場景時,不僅視覺上效果更好,也更加貼合物理規律。
比如吹滅蠟燭時火苗的晃動,以及漸進式的熄滅過程,連燃燒產生的白煙也沒有落下:

寫書法時毛筆的運動處理得也很精細,並且做到了筆跡和紙上的字跡同步(雖然不知道寫的是什麼):

還有用手捏史萊姆時的形狀變化,以及內部產生的流體效果,連手鬆開時的粘連效果也體現了出來:

甚至是三球來回拋的雜技表演,也能很好地體現出拋物線軌跡:

另外,作者也針對文本/外觀/運動一致性、影片質量等指標,在4B和30B的DiT模型上分別運用VideoJAM進行了評估,並與主流影片生成模型進行了對比。
結果在4B和30B規模下,相比於原始的DiT模型,運動質量從78.3和88.1,分別提升到了93.7和92.4,提升比例分別為19.67%和4.88%。
並且應用VideoJAM後,運動質量也超過了Gen3、Sora等其他對比模型。

那麼,VideoJAM是如何做到的呢?
訓練中引入運動信息
在訓練和推理階段,VideoJAM針對經典的DiT架構都進行了一定補充。
具體來說,在訓練階段,VideoJAM採用了聯合外觀-運動表示(Joint Appearance-Motion Representation)。
通過在模型中引入額外的運動預測任務,讓模型在生成影片的同時也學習如何預測對應的運動。
為實現聯合外觀-運動表示,VideoJAM對現有影片生成模型進行了兩處關鍵性改動,添加了輸入和輸出兩個線性投影層。
-
輸入投影層將外觀特徵(影片幀的表示)和運動特徵拚接後映射到模型的隱藏空間,形成一個聯合的潛在表示,這個潛在表示融合了靜態外觀信息和動態運動信息。
-
輸出投影層則從模型的聯合潛在表示中,分別解碼出影片的外觀預測和運動預測,其中外觀預測用於生成最終的影片幀,運動預測則用來評估模型對時間一致性的理解。
在這一過程當中,運動是用光流(Optical Flow),也就是影片幀之間像素的位移的形式進行表示的。
處理時,VideoJAM將光流轉換成RGB格式,像素運動方向被映射為色調,強度則被映射為亮度或透明度,使其可以像普通影片一樣被模型處理。
這種處理方式無需額外訓練複雜的運動編碼器,且兼容性強,可以方便地嵌入到現有的影片生成模型中。

到了推理階段,VideoJAM採用了內部引導機制(Inner-Guidance Mechanism),進一步增強生成影片的運動一致性。
這種機制不依賴外部條件,而是使用模型自身在每個生成步驟中預測的運動信息來動態調整生成過程,可以實時捕捉生成影片的動態變化。
和其他擴散模型一樣,生成影片的初始輸入是隨機噪聲,模型首先對噪聲進行處理,生成初步的影片幀和對應的運動預測。
生成過程中,模型會使用當前幀的運動預測作為指導信號,調整下一個時間步的生成方向。
這種反饋機制之下,模型不斷審視自己生成的動作是否連貫,並在發現不一致時自動進行調整。

具體到生成進程,可以分成兩個階段,內部引導主要應用在其中第一個:
-
粗略階段:在生成初期(大約前50%的步驟),重點關注大範圍的運動連貫性,如整體方向和節奏。
-
細化階段:在生成後期,轉向優化細節,如肢體動作的微調和物體交互的物理合理性。
消融實驗表明,作者採用的光流表示和內部引導機制正是VideoJAM實現高運動一致性的關鍵。

論文地址:
https://arxiv.org/abs/2502.02492
項目主頁:
https://hila-chefer.github.io/videojam-paper.github.io/