同一個形象可出現在不同場景中! 影片大模型Vidu迎重磅更新

9月11日,由生數科技和清華大學聯合研發的自研原創影片大模型Vidu迎來重大更新「主體參照」(Subject Consistency)功能,該功能能夠實現對任意主體的一致性生成,讓影片生成更加穩定、可控。目前該功能面向用戶免費開放。

主體參照功能上線 解決角色一致性問題

目前,無論是文生圖功能,還是文生影片功能,一個廣受詬病的問題就是圖片或影片中出現形象的主體一致性問題。同樣的提示詞,同樣的大模型,生成兩次,所生成的內容並不一樣,在藝術作品中,這就會導致主角的形象不能保持一致,也成為了AI生成作品與人類最大的區別之一。

為瞭解決這一問題,業界曾嘗試採用「先AI生圖、再圖生影片」的方法,通過AI繪圖工具如 Midjourney 生成分鏡頭畫面,先在圖片層面保持主體一致,然後再將這些畫面轉化為影片片段並進行剪輯合成。

但問題在於,AI 繪圖的一致性並不完美,往往需要通過反復修改和局部重繪來解決。更重要的是,實際的影片製作過程中涉及眾多場景和鏡頭,這種方法在處理多組分鏡頭的場景時,生圖的工作量巨大,能佔到全流程的一半以上,且最終的影片內容也會因為過分依賴分鏡頭畫面而缺乏創造性和靈活性。

而在9月11日生數科技舉辦的媒體開放日活動上,生數科技展示了「主體參照」功能,該功能允許用戶上傳任意主體的一張圖片,Vidu 就能夠鎖定該主體的形象,通過描述詞任意切換場景,輸出主體一致的影片。

該功能不局限於單一對象,而是面向「任意主體」,無論是人物、動物、商品,還是動漫角色、虛構主體,都能確保其在影片生成中的一致性和可控性,這是影片生成領域的一大創新。Vidu 也是全球首個支持該能力的影片大模型。

比如進行人物角色的「主體參照」,無論是真實人物還是虛構角色,Vidu 都能保持其在不同環境中、不同鏡頭下的形象連貫一致。如生數科技董事長、CEO唐家渝在現場展示了通過提供陳曉旭扮演的林黛玉形象後,生成的不同場景、不同著裝下,「林黛玉喝咖啡」鏡頭都能看出是「同一個林黛玉」。

生數科技董事長、CEO唐家渝在現場展示「主體參照」功能。新京報貝殼財經記者 羅亦丹 攝生數科技董事長、CEO唐家渝在現場展示「主體參照」功能。新京報貝殼財經記者 羅亦丹 攝

AI影片創作連貫性將大大提升 AI完整敘事時代來臨

依據該功能,中央廣播電視總台導演、AIGC藝術家石宇翔(森海螢光)創作了一條動畫短片《夏日的禮物》,在分享創作流程中他表示,與基礎的圖生影片功能相比,「主體參照」功能擺脫了靜態圖片的束縛,生成的畫面更具感染力和自由度,讓創作的連貫性大大提升。同時幫助他節約7成左右的生圖工作量,顯著提效,讓他能夠將更多精力放在故事內容的打磨上,而非生成圖片素材上。同時,一致性讓後期剪輯也更加方便。

中央廣播電視總台導演、AIGC藝術家石宇翔現場展示通過「主體參照」功能創作的動畫,可以看出在該動畫中主角形象保持了穩定。新京報貝殼財經記者 羅亦丹 攝

唐家渝表示, “主體參照”這一全新功能的上線,代表著 AI 完整敘事的開端,AI 影片創作也將邁向更高效、更靈活的階段。無論是製作短影片、動畫作品還是廣告片,在敘事的藝術中,一個完整的敘事體系是「主體一致、場景一致、風格一致」等要素的有機結合。

因此,影片模型要達到敘事的完整性,就必須在這些核心元素上實現全面可控。「主體參照」功能是 Vidu 在一致性方面邁出的重要一步,但這僅僅是開始。未來,Vidu 將繼續探索如何精確控制多主體交互、風格統一、多變場景穩定切換等複雜元素,以滿足更高層次的敘事需求。

他表示,從更長遠的視角來看,一旦實現了全面的可控性,影片創作行業將經歷一場顛覆性的變革。屆時,角色、場景、風格,甚至鏡頭運用、光影效果等元素,都將轉化為可靈活調整的參數。用戶只需要動動手指、調調參數,就可以完成一部影像作品的創作,而每一部作品的背後,也將是用戶基於AI構建出的獨特世界觀和自我表達。

新京報貝殼財經記者 羅亦丹 編輯 王進雨 校對 楊利