這個清華大佬整的活,讓李白穿上了背帶褲
粉色連衣裙、黑色大波浪的美女,驚恐轉身後,露出了一神似張桑治小寶的嬌俏面龐。
微張的嘴唇,欲語還休。
美國的三好青年馬斯克,身著東北大花襖,站在微風陣陣的白宮前邊。
小手一揣,略帶侷促地露出一抹拘謹、正派的微笑。
而另一邊,魔卡少女小櫻也正拉著隔壁的蕾姆,在三里屯商場里逛街。
當然了,世超知道見識過各種 P 圖軟件和 AI 技術的你。估計看到這些效果,也是輕輕一笑說:
早半年前,哥就見過這種效果了。
哥不僅能讓馬斯克換裝,就是讓他跳段舞,也是手拿把掐了。
但且慢,上面這些影片的生成方法,可能跟你以前見過的都不一樣。
這個用的是生數科技聯合清華團隊推出的影片模型 Vidu 1.5 ,這個模型有一個新的能力:多主體一致性。
用大白話來說,就是我們可以上傳多張圖片來生成影片。並且保證這些複雜的元素不會變形。
比如上傳角色、物體和地點的圖,它可以用你指定的這些元素,做出一條影片來。
這樣我們在生成的時候,就可以自己設定人物、物體還有場景。
像馬斯克這條影片,就是用了一張馬斯克的大頭照,一件花襖,還有一張白宮的圖片,生成出來的。
丟一句簡單的提示詞, Vidu 就可以複刻出一條以假亂真的影片。讓馬斯克,穿上你給的大花襖,在白宮前秀一段。
這麼整的好處顯而易見,我們可以手動控制AI 生成的素材,讓影片更合我們心意。
以前我們只能扔一句話,或者扔一張照片,讓 AI 自由發揮。最後結果很容易就脫離我們的預期。
比如你直接說讓馬斯克穿著大花襖,它就會真的在馬褂上,畫幾朵大花。
如果 AI 的詞居里,就沒有大花襖這個東西。不論我們怎麼調整提示詞,最後都沒法生成出來。
可現在,你不用使勁憋提示詞了,只需要閉眼甩一張圖。
之前還沒有影片模型可以做到這樣,很多時候能把一張上傳的圖片處理明白,就已經相當得勁了。
所以, Vidu 這個模型一發佈。外網的各種網民們,立馬就驚呼,然後開機上手了。
大家也可以直接打開 Vidu 的官方,上手試試看。不過,現在只有三次的免費機會,後面每次試用就會需要消耗 4 個積分。
為了給大家整個明白,世超試用了一天。大夥可以往下滑,看看我的效果,再決定要不要玩。
按照編輯部的約定俗成,咱們的吉祥物一般都是我第一個試的。
這回,我整了兩張火鍋戴頭盔的照片,又上傳了一張抹茶綠的雅迪電動車。
輸入提示詞:金毛犬在騎雅迪電動車。
大概幾十秒之後,帶著黑色防風鏡的火鍋,就這麼絲滑地騎上了小電驢。
連胸前藍色的掛飾,還有雅迪的橙色車標,都完整的保留了下來。這個一致性效果還是挺驚豔的。
還貼心地加上了吐舌頭和搖尾巴的小細節。
雖然火鍋這個滑滑板一樣的騎車動作,是肯定沒法上路的。
不過,因為狗本來就不會騎電驢,咱們也不能強求。後面,世超換了張祖比斯的大頭照,這個效果就很可以了。
而且,我還特地上了點難度。讓祖比斯也和馬斯克一樣,穿上了咱們特色服飾軍大衣。
硬朗五官配上筆挺大衣,效果還是非常板正的。
祖比斯應該也沒想到,自己有一天會坐上雅迪的橘色雅座吧。
雖然只有正臉照,但是鏡頭轉到側方的時候,人物的特徵 ( 比如小禿頭 )還是還原得挺精準。
不過,上面這些都還是單一的人物主體,外加一個場景或者物品。抓取起來還是比較簡單。
一般來說,我們加入的主體越多,大模型就可能抓取錯誤。
於是我試了一下上傳一張唐伯虎點秋香里經典圖,然後要求把臉部替換成我給的另一張圖。
它從一堆人的背影里,精準地找到秋香。讓她把臉緩緩轉過來,微微露出側臉。
雖然沒有全臉示人,但眉眼就足夠一眼丁真。
後面,我又加上了難度。
不僅要替換服裝,還要加上動作。讓語文課本上的李白和蔡徐坤來個對換:李白穿著背帶褲在打籃球。
這次, Vidu 給的效果就相當抽像了。
它直接給坤換了個畫風,整出了一個動畫版。雖說保留的格子褲花紋小細節,足以體現用心。
但這個李白 260 °水調大轉頭,畫面實在過於詭異了。也沒有完成我輸入的【 打籃球 】的指令。
在後面測試中,世超發現 Vidu 雖然能摳主體。但是,如果動作比較大,或者畫面變化比較多,就容易出現上面突然轉頭的小 bug 。
比如,讓它把胖虎的玩具人偶放在冰雪女王的手上。
它確實能處理多個主體,讓塑膠胖虎憑空變出來,而且,冰雪女王的動作和場景連貫性,基本可以以假亂真。
但是,換進去的胖虎的動作,就明顯有點小崩。在五秒里,連續抽搐變形了數次。
在一下午的測試里, Vidu 的生成效果總是時好時壞。
世超一直在上一秒驚豔,下一秒驚嚇的反復中來來回 回。
比如讓雷軍坐到問界的車里揮手。雷軍就這麼水靈靈地掉到了車外面,而且,臉也早已經崩壞了。
但是,同時它又能完美地讓樂高國王,在城堡上舉起長劍,激昂演講。保持場景和人物,都連貫一致。
崩多了之後,我甚至摸出了一些門道。如果你看完文章後,打算去試試,那麼在給主體照片的時候,最好找背景比較乾淨的圖片。
主體越好摳出來,生成的準確率就越高。
同時,給一個主體上傳多個角度的照片,也能讓他動起來更自然。因為模型可以構建出一個更完整的人物。
雖然根據 Vidu 官方的說法,他們這次放棄了業界主流的 LoRA 微調的方法。因為那種方法,很容易出現過擬合,就是在理解主體的過程中,會遺忘大量原先的知識。
所以,主體的動作和肢體很容易崩壞,難以控制。畫面里東西越多,變化越多,就越容易失控。
而 Vidu 的新模型是用類似於大語言模型的技術,把所有輸入都處理成視覺數據,並和大語言模型一樣能 「 上下文記憶 」 地處理這些輸入數據。
這確實讓 Vidu 在多主體的處理上,邁出了一大步。
但與此同時,經過簡單測試後,世超覺得 Vidu 的這個技術還有很長一段路需要走。
其實, Vidu 暴露的問題跟早期的文成影片很像。就是意思都到了,但是細節還不夠,效果不穩定,時不時抽一下風。
像這個電動車和公路場景,再怎麼切換鏡頭都沒有變形。就是運動的時候,人物出現了影分身。
如果你想用它完全替代影片工作者的工作,世超覺得還是得等等。
但 Vidu 肯定是值得上手玩玩看的。
畢竟誰不想讓喜歡的角色穿上我們挑選的衣服,不想讓心意的 IP 角色或者明星,跨界同框一下呢。
本文來自微信公眾號「差評X.PIN」,作者:star,編輯:江江 & 麵線,36氪經授權發佈。