馬斯克炫酷變身毒液!實測通義Wan2.1首尾幀影片模型,還能「拚接」經典梗圖

一水 發自 凹非寺

量子位 | 公眾號 QbitAI

在GitHub狂攬1w+星標的通義萬相Wan2.1,又雙叒上新了!

最新打開方式是醬嬸兒的:

給出開始(首幀)和結束(尾幀)兩張圖片,Wan2.1便能分分鐘生成一段絲滑的5s、720p影片。

根據前後視角的不同,還能自動調整鏡頭角度,緩慢變成高空俯拍,並同時保證人物光影正確:

原來這是阿裡通義萬相Wan2.1最新開源的首尾幀影片模型,基於Wan2.1文生影片14B大模型,為創作者們提供更高效、更靈活的影片製作方式。

官方表示,這是業界首個百億參數規模的開源首尾幀影片模型

目前普通用戶可以直接在通義萬相官網體驗,開發者可以通過GitHub、Hugging Face、魔搭社區等開源平台使用。

為了評估其真實能力,我們也在第一時間上手實測了一波。

初步感受是,從整體上來說,Wan2.1首尾幀影片模型這次在主體一致性、前後連貫性等方面確實表現不錯。

我們嘗試了用它來改造經典梗圖或挑戰一些火爆一時的玩法,具體過程如下。

實測Wan2.1首尾幀影片模型

打開通義萬相官網,進入影片生成,然後選擇圖生影片並開啟首尾幀功能:

先上經典玩法——「文藝複興」表情包。

我們提供的首尾幀分別如下:

對於這樣兩張頗具戲劇張力的圖片,Wan2.1最終生成的影片be like:

雖然不能深究故事合理性,但整個轉場確實非常絲滑,而且運動過程中人物的一致性保持較好,類似頭髮、長相、服裝這樣易出錯的細節也hold住了。

接下來難度升級,我們又嘗試讓兩張完全不同的表情包來個「時空跨越」。

結果生成的影片自帶「PPT轉場」效果,有種家裡長輩看熊孩子的感覺了(doge)~

Okk,除了整活兒,接下來我們也從時序連貫性、創意合理性、內容一致性以及技術實現難度等維度來進行一個全方位考察。

最常見的用法,當屬各類寫實

讓我們淺淺模仿一下自然頻道,讓一朵花花慢慢生長出來。

Prompt:特寫鏡頭,讓牡丹花慢慢綻放。

可以看到,整個生長過程相當自然,已經是肉眼無法一眼識別為AI的情況了。

而且連首幀圖片中隱藏的蛛網也捕捉到了,在花朵綻放時也被牽動起來。

還有人物寫實,通過提供兩張特寫照片,我們考察一下Wan2.1對光影這類細節的把控力

Prompt:寫實風格,臉部特寫,一個金髮碧眼的小男孩,鏡頭微微左移,記錄他被陰影遮住的側臉。

顯然,由於兩張圖片前後差距不大,因此稍微不注意可能還以為是靜態圖像。

而通過細緻觀察,我們在影片靠近結尾的部分捕捉到了小男孩的脖子和臉上發生了光照變化。

除此之外,我們也挑戰了曾經火爆一時的創意玩法——毒液變身特效

Prompt:特效大片既視感,穿西裝的男人突然變身成怪獸毒液。

馬斯克版·毒液這就來了:

能夠看出,對於這種內容跨度比較大的例子,Wan2.1使用了「遮掩大法」,直接一個發亮特效實現變身。

對此,你說它變了還是沒變,還真難界定~

另外我們也嘗試了其他風格,比如二次元。

Prompt:動漫風格,一個打著雨傘的動漫角色站在雨中,不知道看見什麼突然傻笑起來。

可以看到,開頭和結尾的表情100%還原了,而且中間還上演了「超絕變臉」,一秒鍾八百個小表情(bushi~

同時下雨這個場景也真實還原了,沒有雨滴直接穿過雨傘的「超現實場景」。

最後,我們也簡單對比了一下Wan2.1和可靈(可靈1.6)的首尾幀生成效果。

同樣兩張圖片和提示詞下,可靈生成的馬斯克版·毒液如下:

雖然老馬的面目略顯猙獰,但好歹是真變身了。

所以,你更pick哪一個呢?

揭秘技術原理和配置

從以上簡單實測來看,相比早期的一些鬼畜影片,這次開源的Wan2.1首尾幀影片模型在主體一致性、前後連貫性等方面已經有了相當大的進步。

那麼接下來的問題是:怎麼做到的?

通過阿里官方發佈的技術報告,僅從首尾幀控制來看,其得益於在基礎架構模型上,引入了額外的條件控制分支

具體而言,首幀與尾幀同若干零填充的中間幀拚接,構成控制影片序列。該序列進一步與噪聲及掩碼(mask)進行拚接,最終作為擴散變換模型(DiT)的輸入。

此外,為實現畫面穩定性控制,通義萬相首尾幀生影片模型提取了首幀和尾幀的CLIP語義特徵,並通過交叉注意力機制(Cross-Attention Mechanism)將其注入到DiT的生成過程中。

憑藉這一獨特的模型架構,最終實現了流暢且準確的首尾幀變換。

當然,最後大家最關注的還是配置問題

以國內的魔搭社區為例,他們目前已在DiffSynth-Studio項目中支持了Wan2.1首尾幀模型。

也就是說,開發者可以基於DiffSynth-Studio(一個提供全鏈路推理和訓練優化的開源工具)實現便捷推理。

值得注意的是,他們還通過某一參數來控制推理過程中常駐顯存的參數量。而實際推理過程使用的顯存需求,會與這一參數、解像度、幀數有關。

他們以81幀960*960解像度的影片為例:

  • 設置參數=None時(意味著無常駐參數限制),需要46G顯存;

  • 設置參數=4*10**9時,需要24G顯存,但推理速度會有所下降;

另外,部分網民也在第一時間分享了自己的配置情況:

我們自己測下來也發現,僅從官網直接體驗,目前生成一個影片實際需要幾分鐘甚至十幾分鐘時間。

所以,大家卷質量的同時,能不能把時長打下來啊(doge)~

直接體驗入口:

https://tongyi.aliyun.com/wanxiang/videoCreation

GitHub:

https://github.com/Wan-Video/Wan2.1

模型(魔搭社區):

https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P

一鍵三連「點讚」「轉發」「小心心」

歡迎在評論區留下你的想法!