快手拿可靈拍電影，搶了Sora的風頭

12月13日 19:54 新浪網 tech-auto-hilite

作者|陶然編輯|魏曉

十二月上旬，AIGC圈子複現了年初Sora曝光時的熱鬧：

一方面，OpenAI憋了大半年的Sora終於開放使用，服務器隨即被擠爆宕機；而在另一邊，國產影片模型也開始高強度更新產出。比如快手的可靈AI，現在就已經進化到可以拿來拍電影的階段了。

月初，由可靈牽頭的國內首個「AIGC導演共創計劃」，對外發佈了首批總共9部短片，快手搜這個計劃名字就都能看。

9部片子來自圈內9位知名導演和AIGC作者協作，導演組這邊，像是擔任過《英雄本色》、《臥虎藏龍》美術指導的葉錦添，《海洋天堂》和《北京遇上西雅圖》系列導演薛曉路，風格各異但大咖確實不少。

這些片子有個共同點：都是AI做的——都是拿可靈AI影片模型生成的，正片時長五六分鐘左右。

放在影視行業，這就只是一部微電影的體量，或者兩三集時下大火的短劇時長，內容上基本做到了劇情連貫，但畫面部分槽點還是頗多。

不過這些並不重要，重要的是所有片子100%由AI製作，雖然後續訪談中導演們都談到了「確實需要反復地生成和調優」。

AI拍電影，現在終於不是噱頭了。

AIGC的一大步

角色、故事，然後做出音影片和表演等等要素，構成了我們認知里的「電影」，不管大製作還是小成本，微電影還是荷李活。

首先的要求就是，角色得確定，故事要連貫。傳統影視製作要劇本、選角，動畫電影要原畫設計，基本定下來之後再開工。

但「連貫性」和「確定性」，對於AI生成影片模型來說，一直都是個巨大的難題。幾秒鍾一個場景或許還行，一旦時間長了、提示詞複雜場景比較多，畫面主體、環境等等很可能就「千變萬化」，圓的變成了方的，下一個場景也許又變回去了。

並且，這種變化在「黑箱」中，幾乎不可控。

今年七月份，藍媒彙受邀參加了一場頭部短劇團隊的媒體溝通會，AI生成影片的在話題會上聊得非常熱鬧。

從形式上看，短劇本身的體量決定了行業的每部作品都不會也不能是大製作，所以如果能用AI直接生成內容，理論上會帶來大幅度的降本增效。

但一線短劇從業者，在當時給出了暫時性的否定回答：AIGC目前還不太能用，原因概括就是「質價比不高」。

首先，目前AI影片模型的調用成本還比較高，這個成本是相對於生成結果來說的。

假設找專業團隊做後期特效等內容是花一份錢辦一份事，那麼，同樣的需求讓AI來做，結果很可能是花了半份錢，卻只辦了不到1/10的事，且後面還要多次返工，勞神費力、得不償失。

不好用導致的不划算，成了AI影片生成模型，在短劇這個幾乎是目前最小單位的影視作品賽道中，形成供需關係的阻力：技術有了但尚未形成生產力。

會上主理人大膽做了一個預判，說「至少半年」。

五個月過後，可靈還真就掏出來了這種生產力，至少是生產力的雛形。

類比拍電影，就是主角、場景什麼的要素都能固定下來了，能拍成作品了，以前的AIGC是沒辦法做出這種長時間的連貫性和一致性的。

好在哪裡？差在哪裡？

具體看看影片，拿時長最長的一部說下細節：

開頭這段講故事的起因，小藍和父母通過電腦影片通話，瞭解到父母正在家鄉準備收麥子，引出後面派機器人過去幫忙這麼一套情節。

劇情邏輯本身不用在意，這個畫面確實有些亮點。

首先，第一個鏡頭中固定位置的電腦很穩定，包括背部的蘋果logo都沒有隨著時間推進出現變化，AI顯然是理解了「電腦」在場景里是個固定物體的意思，影片通話不影響電腦外觀。

人物方面，可以看到小藍和父母，三個人嘴部的動作和音頻內容大體是能對上的，至少開閉時間正確。

導演賈樟柯在訪談里專門提了這個點，說用到了可靈AI新推出的「對口型」功能，並挑戰了「對口型」功能講方言的能力，這個功能讓用戶可以在生成人物影片後上傳音頻，再將音頻內容與影片人物嘴型同步，以滿足影視創作中人物對白的基本需要。

而且，這裏導演用的還是方言，山西汾陽話。

當然，小問題也不是沒有，後面這段畫面在短時間內切換了三個場景，小鎮里找路、搭車，最後找到麥田。

在這三個場景的切換中，人物主體雖然保持了大面上的一致，都是人臉+白色機械為主體的男性機器人，但不管是面部細節還是白色機體的構造，三個場景明顯細看都能看出是三個完全不同的「角色」。

這就是前面提到的「一致性」問題，不管是三段內容分別生成，還是同一段提示詞寫了三個場景切換，畫面主體人物依然出現了細節上的不可控。

用影視的標準去評價，這當然是有問題，但對於AIGC來說，這種程度的一致性保持，考慮到全片五分多鍾的時長，其實還算比較不錯。

這部片子的最初設計中，機器人的設定是下圖這個更為抽像的純機器形象，更據稱「更加難以把控畫面的一致性」，AIGC作者Jade Wu的解決辦法就是換成了一個帶有人像的半機器人設計。也就是說，目前的畫面狀態實際上已經費了一番功夫去調整。

前段時間，OpenAI 的影片王炸Sora對外放出，從大量實測畫面來看，Sora在畫面穩定性和一致性上的獨屬t0應該是毫無疑問的。

而且很值得注意的點是，不少Sora生成的擬真畫風影片中，畫面幾乎看不到很濃的「AI味」，而是有種世界模型概念下物理模擬出的實拍感。

時長方面，可靈等目前分鐘級以上的能力已經非常可觀，下一步要期待的，還是模型生成的畫面能否去掉AI味，做到「以假亂真」。

技術層面的有限差距和追進過程，反而是值得期待的。