快手拿可靈拍電影,搶了Sora的風頭
作者|陶然 編輯|魏曉
十二月上旬,AIGC圈子複現了年初Sora曝光時的熱鬧:
一方面,OpenAI憋了大半年的Sora終於開放使用,服務器隨即被擠爆宕機;而在另一邊,國產影片模型也開始高強度更新產出。比如快手的可靈AI,現在就已經進化到可以拿來拍電影的階段了。
月初,由可靈牽頭的國內首個「AIGC導演共創計劃」,對外發佈了首批總共9部短片,快手搜這個計劃名字就都能看。
9部片子來自圈內9位知名導演和AIGC作者協作,導演組這邊,像是擔任過《英雄本色》、《臥虎藏龍》美術指導的葉錦添,《海洋天堂》和《北京遇上西雅圖》系列導演薛曉路,風格各異但大咖確實不少。
這些片子有個共同點:都是AI做的——都是拿可靈AI影片模型生成的,正片時長五六分鐘左右。
放在影視行業,這就只是一部微電影的體量,或者兩三集時下大火的短劇時長,內容上基本做到了劇情連貫,但畫面部分槽點還是頗多。
不過這些並不重要,重要的是所有片子100%由AI製作,雖然後續訪談中導演們都談到了「確實需要反復地生成和調優」。
AI拍電影,現在終於不是噱頭了。
AIGC的一大步
角色、故事,然後做出音影片和表演等等要素,構成了我們認知里的「電影」,不管大製作還是小成本,微電影還是荷李活。
首先的要求就是,角色得確定,故事要連貫。傳統影視製作要劇本、選角,動畫電影要原畫設計,基本定下來之後再開工。
但「連貫性」和「確定性」,對於AI生成影片模型來說,一直都是個巨大的難題。幾秒鍾一個場景或許還行,一旦時間長了、提示詞複雜場景比較多,畫面主體、環境等等很可能就「千變萬化」,圓的變成了方的,下一個場景也許又變回去了。
並且,這種變化在「黑箱」中,幾乎不可控。
今年七月份,藍媒彙受邀參加了一場頭部短劇團隊的媒體溝通會,AI生成影片的在話題會上聊得非常熱鬧。
從形式上看,短劇本身的體量決定了行業的每部作品都不會也不能是大製作,所以如果能用AI直接生成內容,理論上會帶來大幅度的降本增效。
但一線短劇從業者,在當時給出了暫時性的否定回答:AIGC目前還不太能用,原因概括就是「質價比不高」。
首先,目前AI影片模型的調用成本還比較高,這個成本是相對於生成結果來說的。
假設找專業團隊做後期特效等內容是花一份錢辦一份事,那麼,同樣的需求讓AI來做,結果很可能是花了半份錢,卻只辦了不到1/10的事,且後面還要多次返工,勞神費力、得不償失。
不好用導致的不划算,成了AI影片生成模型,在短劇這個幾乎是目前最小單位的影視作品賽道中,形成供需關係的阻力:技術有了但尚未形成生產力。
會上主理人大膽做了一個預判,說「至少半年」。
五個月過後,可靈還真就掏出來了這種生產力,至少是生產力的雛形。
類比拍電影,就是主角、場景什麼的要素都能固定下來了,能拍成作品了,以前的AIGC是沒辦法做出這種長時間的連貫性和一致性的。
好在哪裡?差在哪裡?
具體看看影片,拿時長最長的一部說下細節:
開頭這段講故事的起因,小藍和父母通過電腦影片通話,瞭解到父母正在家鄉準備收麥子,引出後面派機器人過去幫忙這麼一套情節。
劇情邏輯本身不用在意,這個畫面確實有些亮點。
首先,第一個鏡頭中固定位置的電腦很穩定,包括背部的蘋果logo都沒有隨著時間推進出現變化,AI顯然是理解了「電腦」在場景里是個固定物體的意思,影片通話不影響電腦外觀。
人物方面,可以看到小藍和父母,三個人嘴部的動作和音頻內容大體是能對上的,至少開閉時間正確。
導演賈樟柯在訪談里專門提了這個點,說用到了可靈AI新推出的「對口型」功能,並挑戰了「對口型」功能講方言的能力,這個功能讓用戶可以在生成人物影片後上傳音頻,再將音頻內容與影片人物嘴型同步,以滿足影視創作中人物對白的基本需要。
而且,這裏導演用的還是方言,山西汾陽話。
當然,小問題也不是沒有,後面這段畫面在短時間內切換了三個場景,小鎮里找路、搭車,最後找到麥田。
在這三個場景的切換中,人物主體雖然保持了大面上的一致,都是人臉+白色機械為主體的男性機器人,但不管是面部細節還是白色機體的構造,三個場景明顯細看都能看出是三個完全不同的「角色」。
這就是前面提到的「一致性」問題,不管是三段內容分別生成,還是同一段提示詞寫了三個場景切換,畫面主體人物依然出現了細節上的不可控。
用影視的標準去評價,這當然是有問題,但對於AIGC來說,這種程度的一致性保持,考慮到全片五分多鍾的時長,其實還算比較不錯。
這部片子的最初設計中,機器人的設定是下圖這個更為抽像的純機器形象,更據稱「更加難以把控畫面的一致性」,AIGC作者Jade Wu的解決辦法就是換成了一個帶有人像的半機器人設計。也就是說,目前的畫面狀態實際上已經費了一番功夫去調整。
前段時間,OpenAI 的影片王炸Sora對外放出,從大量實測畫面來看,Sora在畫面穩定性和一致性上的獨屬t0應該是毫無疑問的。
而且很值得注意的點是,不少Sora生成的擬真畫風影片中,畫面幾乎看不到很濃的「AI味」,而是有種世界模型概念下物理模擬出的實拍感。
時長方面,可靈等目前分鐘級以上的能力已經非常可觀,下一步要期待的,還是模型生成的畫面能否去掉AI味,做到「以假亂真」。
技術層面的有限差距和追進過程,反而是值得期待的。