Sora入侵影視業 百萬製作成本或將「一鍵勾銷」
作者/ IT時報記者 沈毅斌
編輯/ 郝俊慧孫妍
「這是給大家準備的聖誕節禮物。」時隔10個月,OpenAI宣佈正式向用戶開放人工智能影片生成模型Sora,用戶可以通過文字、圖像或其他影片素材,生成長達20秒的影片。
除了在生成影片的時長上有所突破,Sora還帶來了強大的影片「編輯」功能,包括Remix(重混)、Re-cut(重新剪輯)、Storyboard(故事板)、Loop(循環)、Blend(混合)以及Style presets(風格預設)。簡單來說,就是用戶可以通過指令對生成影片進行精準裁剪、擴展生成、拚接混合、循環等。
當生成與編輯集於一身的Sora強勢來襲,一方面,壓力傳導至國產「Sora們」,一致性這一核心技術成為突破焦點;另一方面,AIGC改變影視劇製作行業的商業拐點,正在加速到來。
Sora一超 國產多強
一致性控制,一直是當前影片生成領域亟待解決的技術難題。生數科技相關負責人告訴《IT時報》記者,業界解決一致性問題最主流的方案是LoRA(Low-Rank Adaptation)微調方案。所謂LoRA方案,即在預訓練模型的基礎上,用特定主體的多段影片進行微調,讓模型理解該主體的特徵,從而生成該主體在不同角度、光線和場景下的形象,保證其在若干次不同生成時的一致性。
簡單理解,比如創作一隻卡通狗的形象,想生成連續一致的影片畫面,但模型在預訓練過程中並沒有學習過該形象,就需要拿卡通狗的多段影片,讓模型進一步訓練,認識這隻卡通狗長什麼樣。
但這一方案通常需要投入20~100段影片,數據構造煩瑣,耗費數個小時甚至更久的訓練時間,成本是單次影片生成的成百上千倍。而且還容易產生過擬合,即在理解主體特徵的同時,會遺忘大量原先的知識。所以LoRA主要適用於大多數簡單情形下的主體一致性需求,而對於高複雜的主體或問題場景,需要更多的微調數據和更複雜的模型微調策略。
儘管Sora並未公佈其控制一致性的技術,但顯然已經有所突破,並在業界處於領先位置。從大批影片創作者爭先發佈針對Sora的測評、對比等體驗感受來看,大部分用戶還是被其強大的一致性控制能力所驚豔,尤其是Storyboard功能,能夠通過時間軸中的分鏡幀來引導畫面內容,確保鏡頭的一致性。
緊隨其後的國產影片生成大模型廠商們在一致性方面也各顯神通。就在Sora上線前不久,中國電信人工智能研究院(TeleAI)發佈的影片大模型採用「二階段生成技術(VAST)」,也實現了主體和環境在不同片段中的形像一致性。
這項技術將影片生成分為兩個過程,第一階段,採用多模態大型模型根據文本輸入生成中間素材,包括影片構圖、主體目標位置及人物姿態等關鍵信息的「Storyboard(故事板)」。第二階段,利用基於DiT架構的擴散模型,結合目標對象的文本描述和外觀信息,生成最終的影片。
生數科技Vidu則通過鎖定主體形象的方式開發出「主體參照」功能。無須專門的數據採集、數據標註、微調訓練環節,用戶上傳任意一張圖片,Vidu就能鎖定主體形象,通過描述詞任意切換場景也能保證輸出主體一致的影片。可靈AI打造的運動筆刷功能,能做到主體一致性不變的情況下,對畫面中的元素指定運動軌跡,從而提升影片可控性。
因此,在國內同行看來,Sora正式版的表現雖好,但也在預期之內。生數科技首席科學家朱軍認為,相比今年二月的首次發佈,衝擊度已經弱了很多;智譜CEO張鵬表示,如果看技術指標,國內有的影片生成模型不比Sora差。
一超多強的局面正在影片大模型領域形成。
影片界的「蒸汽機」來了
從生成影片到編輯影片,被Sora功能驚豔的不僅有體驗者,還有整個影視劇行業。
Sora上線之前,上海大學溫哥華電影學院副院長陳曉達曾和學生團隊做過一次測試,為了成功生成一個想要的鏡頭畫面,向影片大模型最多輸入超300條指令,「每生成一幀畫面都是一次‘開盲盒’,無法確保生成內容符合標準,因此只能花費大量時間不斷生成,從中挑選出可用畫面拚湊成一部短劇」。
Sora上線後,針對特定畫面的可控編輯,讓陳曉達看到了專業性,也看到利用AI製作長影片的希望。
「對於影視製作來說,重混、重新剪輯、混合等是剪輯里的專業領域。」陳曉達向《IT時報》記者舉例稱,如果想達到主體變化而場景不變的效果,按照傳統方式,需要在前期拍攝兩段場景相似,主體不同的片段,後期還需要多圖層編輯,必要時要將主體從背景中摳出來,才能創建出全新的視覺效果。
而Sora發佈的Demo中,Remix(重混)可以將「奔跑的猛獁象」一鍵替換成「奔跑的機器人」,前期拍攝和後期編輯都變成精準的指令控制,對於影片製作而言無疑是降本增效。
上海人工智能研究院算法工程師黃冠在接受媒體採訪時也表示,在當前情形下,Sora更多是作為輔助工具提高工作效率,但從工具屬性上看,Sora帶來了一場「革命」,傳統影片的製作方法可能完全被顛覆。未來,當理想版Sora以及AIGC成為現實,不僅是影片行業的「工具革命」,說是媒體行業新一輪的「工業革命」也不為過。
此外,Sora剪輯功能的亮相也為影片生成大模型和剪輯工具軟件樹立起AI智能的標杆。
陳曉達認為,Sora的貢獻在於0~1的突破,但1~10的發展一直是國產的優勢所在,「Sora只是打了一個樣,我更期待有更多的應用創新。作為影片製作者,我們希望可以誕生一種智能與專業於一體的影片工具,能在自動生成編輯與手動專業微調中來回切換。」
AIGC
將全面「入侵」影視業
當影片生成大模型成為生產工具,商業化的拐點也將到來。
影片大模型有多賺錢?根據Sora Turbo採用的靈活積分製定價策略,《IT時報》記者計算,每積分成本為0.02美元(約人民幣0.145元),在不使用其他功能的前提下,Sora生成一個5秒480P影片成本為0.5美元,折合人民幣3.63元。生成5秒1080P影片成本為4美元(約人民幣27.6元)。
快手科技創始人兼首席執行官程一笑透露,可靈AI用戶已超500萬,累計生成超5100萬個影片和超1.5億張圖片,且用戶留存還在逐月提升,在9月實現了月活超150萬,商業化單月流水超過千萬元。
影片大模型有多慳錢?陳曉達告訴記者,從前期的佈景、美術、服化道,到中期的拍攝、演員,再到後期的特效,如果場面宏大些加點爆破,成本輕鬆超過百萬元,甚至千萬元。若AI能一步到位,將會讓製作成本「斷崖式」下降,甚至「一鍵勾銷」。
「當AIGC在影視行業真正實現商業化後,我認為主要成本將只剩下兩個,一是導演和編劇的創意成本,二是AI人才的培養成本。」陳曉達說。
從Sora發佈到上線的10個月時間,彷彿給影視行業打了一針AI「強心劑」,各大影視行業公司和知名導演紛紛開始擁抱AIGC。
華策影視推出AIGC新應用「影視劇本智能創作系統」,提供「評估助手」和「編劇助手」工具,評估助手能將一本20萬~50萬字的小說劇本評估時間從3天壓縮為5分鐘。華策影視方面表示,將積極探索文生影片等新興AI技術在傳媒領域的落地應用與業態創新。
博納影業利用AIGC技術完成了從劇本創作到影片編輯等多種工作,出品製作的AIGC生成連續性敘事科幻短劇集《三星堆:未來啟示錄》在抖音播出。博納影業表示,AIGC是聯動影視產業上下遊多模態的鑰匙,可實現降本增效並探索突破性變革。
12月6日,中國首個AIGC導演共創計劃舉辦,由李少紅、賈樟柯、俞白眉等9位導演共同發起,旨在借助AI的力量激發創意潛能。
陳曉達還透露,明年上海電影節計劃開設AIGC板塊,鼓勵創作者利用Sora等影片生成大模型製作影視劇,加快推動AI在影視行業的應用落地。
排版/ 季嘉穎
圖片/ Sora 抖音 IT時報