這個清華大佬整的活，讓李白穿上了背帶褲

11月15日 08:4811月15日 08:55 新浪網 tech-auto-hilite

粉色連衣裙、黑色大波浪的美女，驚恐轉身後，露出了一神似張桑治小寶的嬌俏面龐。

微張的嘴唇，欲語還休。

這個清華大佬整的活，讓李白穿上了背帶褲

美國的三好青年馬斯克，身著東北大花襖，站在微風陣陣的白宮前邊。

小手一揣，略帶侷促地露出一抹拘謹、正派的微笑。

而另一邊，魔卡少女小櫻也正拉著隔壁的蕾姆，在三里屯商場里逛街。

當然了，世超知道見識過各種 P 圖軟件和 AI 技術的你。估計看到這些效果，也是輕輕一笑說：

早半年前，哥就見過這種效果了。

哥不僅能讓馬斯克換裝，就是讓他跳段舞，也是手拿把掐了。

但且慢，上面這些影片的生成方法，可能跟你以前見過的都不一樣。

這個用的是生數科技聯合清華團隊推出的影片模型 Vidu 1.5 ，這個模型有一個新的能力：多主體一致性。

用大白話來說，就是我們可以上傳多張圖片來生成影片。並且保證這些複雜的元素不會變形。

比如上傳角色、物體和地點的圖，它可以用你指定的這些元素，做出一條影片來。

這樣我們在生成的時候，就可以自己設定人物、物體還有場景。

像馬斯克這條影片，就是用了一張馬斯克的大頭照，一件花襖，還有一張白宮的圖片，生成出來的。

丟一句簡單的提示詞， Vidu 就可以複刻出一條以假亂真的影片。讓馬斯克，穿上你給的大花襖，在白宮前秀一段。

這麼整的好處顯而易見，我們可以手動控制AI 生成的素材，讓影片更合我們心意。

以前我們只能扔一句話，或者扔一張照片，讓 AI 自由發揮。最後結果很容易就脫離我們的預期。

比如你直接說讓馬斯克穿著大花襖，它就會真的在馬褂上，畫幾朵大花。

如果 AI 的詞居里，就沒有大花襖這個東西。不論我們怎麼調整提示詞，最後都沒法生成出來。

可現在，你不用使勁憋提示詞了，只需要閉眼甩一張圖。

之前還沒有影片模型可以做到這樣，很多時候能把一張上傳的圖片處理明白，就已經相當得勁了。

所以， Vidu 這個模型一發佈。外網的各種網民們，立馬就驚呼，然後開機上手了。

大家也可以直接打開 Vidu 的官方，上手試試看。不過，現在只有三次的免費機會，後面每次試用就會需要消耗 4 個積分。

為了給大家整個明白，世超試用了一天。大夥可以往下滑，看看我的效果，再決定要不要玩。

按照編輯部的約定俗成，咱們的吉祥物一般都是我第一個試的。

這回，我整了兩張火鍋戴頭盔的照片，又上傳了一張抹茶綠的雅迪電動車。

輸入提示詞：金毛犬在騎雅迪電動車。

大概幾十秒之後，帶著黑色防風鏡的火鍋，就這麼絲滑地騎上了小電驢。

連胸前藍色的掛飾，還有雅迪的橙色車標，都完整的保留了下來。這個一致性效果還是挺驚豔的。

還貼心地加上了吐舌頭和搖尾巴的小細節。

‍雖然火鍋這個滑滑板一樣的騎車動作，是肯定沒法上路的。

不過，因為狗本來就不會騎電驢，咱們也不能強求。後面，世超換了張祖比斯的大頭照，這個效果就很可以了。

而且，我還特地上了點難度。讓祖比斯也和馬斯克一樣，穿上了咱們特色服飾軍大衣。

硬朗五官配上筆挺大衣，效果還是非常板正的。

祖比斯應該也沒想到，自己有一天會坐上雅迪的橘色雅座吧。

雖然只有正臉照，但是鏡頭轉到側方的時候，人物的特徵（比如小禿頭）還是還原得挺精準。

‍不過，上面這些都還是單一的人物主體，外加一個場景或者物品。抓取起來還是比較簡單。

一般來說，我們加入的主體越多，大模型就可能抓取錯誤。

於是我試了一下上傳一張唐伯虎點秋香里經典圖，然後要求把臉部替換成我給的另一張圖。

它從一堆人的背影里，精準地找到秋香。讓她把臉緩緩轉過來，微微露出側臉。

雖然沒有全臉示人，但眉眼就足夠一眼丁真。

後面，我又加上了難度。

不僅要替換服裝，還要加上動作。讓語文課本上的李白和蔡徐坤來個對換：李白穿著背帶褲在打籃球。

這次， Vidu 給的效果就相當抽像了。

它直接給坤換了個畫風，整出了一個動畫版。雖說保留的格子褲花紋小細節，足以體現用心。

但這個李白 260 °水調大轉頭，畫面實在過於詭異了。也沒有完成我輸入的【打籃球】的指令。

在後面測試中，世超發現 Vidu 雖然能摳主體。但是，如果動作比較大，或者畫面變化比較多，就容易出現上面突然轉頭的小 bug 。

比如，讓它把胖虎的玩具人偶放在冰雪女王的手上。

它確實能處理多個主體，讓塑膠胖虎憑空變出來，而且，冰雪女王的動作和場景連貫性，基本可以以假亂真。

但是，換進去的胖虎的動作，就明顯有點小崩。在五秒里，連續抽搐變形了數次。

在一下午的測試里， Vidu 的生成效果總是時好時壞。

世超一直在上一秒驚豔，下一秒驚嚇的反復中來來回回。

比如讓雷軍坐到問界的車里揮手。雷軍就這麼水靈靈地掉到了車外面，而且，臉也早已經崩壞了。

但是，同時它又能完美地讓樂高國王，在城堡上舉起長劍，激昂演講。保持場景和人物，都連貫一致。

崩多了之後，我甚至摸出了一些門道。如果你看完文章後，打算去試試，那麼在給主體照片的時候，最好找背景比較乾淨的圖片。

主體越好摳出來，生成的準確率就越高。

同時，給一個主體上傳多個角度的照片，也能讓他動起來更自然。因為模型可以構建出一個更完整的人物。

雖然根據 Vidu 官方的說法，他們這次放棄了業界主流的 LoRA 微調的方法。因為那種方法，很容易出現過擬合，就是在理解主體的過程中，會遺忘大量原先的知識。

所以，主體的動作和肢體很容易崩壞，難以控制。畫面里東西越多，變化越多，就越容易失控。

而 Vidu 的新模型是用類似於大語言模型的技術，把所有輸入都處理成視覺數據，並和大語言模型一樣能「上下文記憶」地處理這些輸入數據。

這確實讓 Vidu 在多主體的處理上，邁出了一大步。

但與此同時，經過簡單測試後，世超覺得 Vidu 的這個技術還有很長一段路需要走。

其實， Vidu 暴露的問題跟早期的文成影片很像。就是意思都到了，但是細節還不夠，效果不穩定，時不時抽一下風。

像這個電動車和公路場景，再怎麼切換鏡頭都沒有變形。就是運動的時候，人物出現了影分身。

指定圖片：初音未來、雅迪電動車和公路

指定圖片：初音未來、雅迪電動車和公路

如果你想用它完全替代影片工作者的工作，世超覺得還是得等等。

但 Vidu 肯定是值得上手玩玩看的。

畢竟誰不想讓喜歡的角色穿上我們挑選的衣服，不想讓心意的 IP 角色或者明星，跨界同框一下呢。

本文來自微信公眾號「差評X.PIN」，作者：star，編輯：江江 & 麵線，36氪經授權發佈。