Sora入侵影視業百萬製作成本或將「一鍵勾銷」

作者／ IT時報記者沈毅斌

編輯／郝俊慧孫妍

「這是給大家準備的聖誕節禮物。」時隔10個月，OpenAI宣佈正式向用戶開放人工智能影片生成模型Sora，用戶可以通過文字、圖像或其他影片素材，生成長達20秒的影片。

除了在生成影片的時長上有所突破，Sora還帶來了強大的影片「編輯」功能，包括Remix（重混）、Re-cut（重新剪輯）、Storyboard（故事板）、Loop（循環）、Blend（混合）以及Style presets（風格預設）。簡單來說，就是用戶可以通過指令對生成影片進行精準裁剪、擴展生成、拚接混合、循環等。

當生成與編輯集於一身的Sora強勢來襲，一方面，壓力傳導至國產「Sora們」，一致性這一核心技術成為突破焦點；另一方面，AIGC改變影視劇製作行業的商業拐點，正在加速到來。

Sora一超國產多強

一致性控制，一直是當前影片生成領域亟待解決的技術難題。生數科技相關負責人告訴《IT時報》記者，業界解決一致性問題最主流的方案是LoRA（Low-Rank Adaptation）微調方案。所謂LoRA方案，即在預訓練模型的基礎上，用特定主體的多段影片進行微調，讓模型理解該主體的特徵，從而生成該主體在不同角度、光線和場景下的形象，保證其在若干次不同生成時的一致性。

簡單理解，比如創作一隻卡通狗的形象，想生成連續一致的影片畫面，但模型在預訓練過程中並沒有學習過該形象，就需要拿卡通狗的多段影片，讓模型進一步訓練，認識這隻卡通狗長什麼樣。

但這一方案通常需要投入20~100段影片，數據構造煩瑣，耗費數個小時甚至更久的訓練時間，成本是單次影片生成的成百上千倍。而且還容易產生過擬合，即在理解主體特徵的同時，會遺忘大量原先的知識。所以LoRA主要適用於大多數簡單情形下的主體一致性需求，而對於高複雜的主體或問題場景，需要更多的微調數據和更複雜的模型微調策略。

儘管Sora並未公佈其控制一致性的技術，但顯然已經有所突破，並在業界處於領先位置。從大批影片創作者爭先發佈針對Sora的測評、對比等體驗感受來看，大部分用戶還是被其強大的一致性控制能力所驚豔，尤其是Storyboard功能，能夠通過時間軸中的分鏡幀來引導畫面內容，確保鏡頭的一致性。

緊隨其後的國產影片生成大模型廠商們在一致性方面也各顯神通。就在Sora上線前不久，中國電信人工智能研究院（TeleAI）發佈的影片大模型採用「二階段生成技術（VAST）」，也實現了主體和環境在不同片段中的形像一致性。

這項技術將影片生成分為兩個過程，第一階段，採用多模態大型模型根據文本輸入生成中間素材，包括影片構圖、主體目標位置及人物姿態等關鍵信息的「Storyboard（故事板）」。第二階段，利用基於DiT架構的擴散模型，結合目標對象的文本描述和外觀信息，生成最終的影片。

生數科技Vidu則通過鎖定主體形象的方式開發出「主體參照」功能。無須專門的數據採集、數據標註、微調訓練環節，用戶上傳任意一張圖片，Vidu就能鎖定主體形象，通過描述詞任意切換場景也能保證輸出主體一致的影片。可靈AI打造的運動筆刷功能，能做到主體一致性不變的情況下，對畫面中的元素指定運動軌跡，從而提升影片可控性。

因此，在國內同行看來，Sora正式版的表現雖好，但也在預期之內。生數科技首席科學家朱軍認為，相比今年二月的首次發佈，衝擊度已經弱了很多；智譜CEO張鵬表示，如果看技術指標，國內有的影片生成模型不比Sora差。

一超多強的局面正在影片大模型領域形成。

影片界的「蒸汽機」來了

從生成影片到編輯影片，被Sora功能驚豔的不僅有體驗者，還有整個影視劇行業。

Sora上線之前，上海大學溫哥華電影學院副院長陳曉達曾和學生團隊做過一次測試，為了成功生成一個想要的鏡頭畫面，向影片大模型最多輸入超300條指令，「每生成一幀畫面都是一次‘開盲盒’，無法確保生成內容符合標準，因此只能花費大量時間不斷生成，從中挑選出可用畫面拚湊成一部短劇」。

Sora上線後，針對特定畫面的可控編輯，讓陳曉達看到了專業性，也看到利用AI製作長影片的希望。

「對於影視製作來說，重混、重新剪輯、混合等是剪輯里的專業領域。」陳曉達向《IT時報》記者舉例稱，如果想達到主體變化而場景不變的效果，按照傳統方式，需要在前期拍攝兩段場景相似，主體不同的片段，後期還需要多圖層編輯，必要時要將主體從背景中摳出來，才能創建出全新的視覺效果。

而Sora發佈的Demo中，Remix（重混）可以將「奔跑的猛獁象」一鍵替換成「奔跑的機器人」，前期拍攝和後期編輯都變成精準的指令控制，對於影片製作而言無疑是降本增效。

上海人工智能研究院算法工程師黃冠在接受媒體採訪時也表示，在當前情形下，Sora更多是作為輔助工具提高工作效率，但從工具屬性上看，Sora帶來了一場「革命」，傳統影片的製作方法可能完全被顛覆。未來，當理想版Sora以及AIGC成為現實，不僅是影片行業的「工具革命」，說是媒體行業新一輪的「工業革命」也不為過。

此外，Sora剪輯功能的亮相也為影片生成大模型和剪輯工具軟件樹立起AI智能的標杆。

陳曉達認為，Sora的貢獻在於0~1的突破，但1~10的發展一直是國產的優勢所在，「Sora只是打了一個樣，我更期待有更多的應用創新。作為影片製作者，我們希望可以誕生一種智能與專業於一體的影片工具，能在自動生成編輯與手動專業微調中來回切換。」