Sora來了,即夢可靈鬆了一口氣

全網苦等10個月的Sora,終於亮相。 

香港時間12月10日淩晨,OpenAI直播第三彈,宣佈旗下影片生成模型Sora正式面向大眾推出。 

自今年2月首次預告以來,Sora僅向一些藝術家、知名演員和導演提供試用服務,但遲遲未上線,吊足大眾胃口。此次一經發佈,立即激發起全球網民的熱情,擠爆服務器。 

「定焦One」注意到,與上一個版本相比,此次的Sora Turbo支持生成1080p解像度、最長20秒的影片,在時長上有明顯突破。更大的亮點在於它提供「編輯」服務,除了單純的文生影片、圖生影片、影片生影片,用戶還可以通過指令實現影片重混、重新剪輯、循環、混合等功能,更像是一個加強版的影片編輯器。 

Sora正式發佈後,一個問題也被擺上台前:國內的Sora們,準備好迎接挑戰了嗎? 

「定焦One」第一時間進行了實測對比,至於結果,遠沒有想像中那麼糟。 

新版Sora,不止文生影片

綜合多位業內人士的觀點,Sora的變化主要集中在兩方面。 

一是時長,Sora Turbo支持用文字、圖片或影片單次生成最長20秒的影片 (此前發佈的演示影片最長為60秒,但不是公開使用版本),有寬屏、豎屏、方屏比例可選。而國內AI影片生成軟件單次大多僅支持5-10秒。 

能生成的影片時間越長,意味著對其內容一致性、避免重覆、銜接過渡上要求更高,模型的優化和訓練數據的質量在其中起著關鍵作用。 

二是它強大的「編輯」功能 ,包括Remix(重混)、Re-cut(重新剪輯)、Storyboard(故事板)、Loop(循環)、Blend(混合)以及Style presets(風格預設)。 

此前,AI生成影片的一大痛點在於一次性生成以後很難再調整,這次Sora一定程度上解決了這個問題。 

我們拿其中三個亮眼的新功能來詳細說明。 

Remix(重混) 可以替換、移除或重新生成影片中的某個要素,例如,在生成「推開圖書館的大門」後(上圖),可以輕易將大門換成法式風格(下圖)。 

Storyboard(故事板) 功能絕對是影片創作者的輔助利器,可以精準指定每一幀的內容,控制每個時間段的畫面。 

比如,讓影片的前114幀生成「紅色的背景下,遠處停靠著一艘宇宙飛船」。 

接著,將114-324幀的場景變為,「從宇宙飛船內部向外看,一位宇航員站在中間」。 

最後在324-440幀,將畫面聚焦到宇航員眼睛的特寫鏡頭,他的眼睛被針織面料製成的面罩包裹住。 

Blend(混合) 功能可以把兩個影片混合在一起,Sora演示了將雪花飄落和花朵飄落的影片混合在一起,過渡非常自然。OpenAI方面稱,這是其它AI影片從未見過的功能。 

需要注意的是,這些功能雖然驚豔,但Sora目前僅在部分國家提供服務,英國、中國大陸等地暫不能使用。

在收費方面,Sora對ChatGPT的Plus會員(每月20美元)和Pro會員(每月200美元)直接開放使用,Plus會員每月可生成50個480P解像度的影片,Pro會員則擁有不限次慢速生成的額度。

Sora來了,可靈、即夢們先別慌

從Sora亮相到發佈的這10個月裡,國內的Sora們一直在抓緊追趕。此次Sora正式發佈後,「定焦One」挑選了國內外幾家比較有代表性的AI生成影片工具,進行實測對比。

先看各大工具在生成秒數、收費價格上的情況。

單次生成秒數上,Sora憑藉20秒領先,緊隨其後的是Runway,可以達到10秒,相比之下,國內的產品普遍都在5-6秒。

需要說明的是,白日夢雖然最長可達6分鐘,但非單次文生影片長度,它根據文字提示先生成人物,然後再生成分鏡、編輯圖片,最後連成一段影片,所以支持的時間較長。

在收費上,國內的產品都可以不付費體驗,有些會限制使用次數。Sora則必須付費才可以使用,且門檻不低,20美元起步,Runway其次,最低月付費15美元。

再看各家提供的具體功能及對應效果。

綜合從業者的說法以及Sora最新發佈的功能,我們從兩個維度進行測試。

1、基礎功能:主要測試文生影片的能力,考察產品對文字指令的理解度、運動過程中人物面部的清晰度和多人物的準確度。為了覆蓋以上三個難點,「定焦One」給出了兩條提示詞:

第一條:鏡頭中景拍攝,夕陽下,兩個長頭髮的女生,一個穿著黃裙子,一個穿著藍裙子,手裡都拿著胡蘿蔔,旁邊還有三隻小兔子,小兔子慢慢跑過去吃胡蘿蔔,電影級調色。

這條主要測試多主體數量的準確度,讓人大跌眼鏡的是,Sora沒能識別出主體數量,只生成了兩隻兔子(測試時已將提示詞轉換為英文),不過,其他的地方都是比較準確的。

Sora提示詞Sora提示詞

第二條:鏡頭特寫拍攝,燈光,一個有著一頭黑色捲髮的中式少女,穿著一條白裙子,胸前手握一束粉色鮮花,眼睛先低頭看鮮花,然後慢慢抬起頭來微笑,電影級調色。

這條主要測試各工具對於人物面部的特寫,以及對複雜指令的理解程度。

從生成效果來看,幾家都理解了特寫拍攝、少女、裙子、粉色鮮花、低頭看花、微笑等人、物和動作,但問題出在指令解讀上,比如可靈沒有讀懂「一個有著一頭黑色捲髮的中式少女」,隨後我們換成「一個中式少女、黑色長捲髮」才成功生成。

可靈提示詞 可靈提示詞 

各家對「中式少女」的理解也不盡相同,比如智譜清言生成人物的更像外國女孩,相比之下,在FilmAction里選擇新中式風格,先文生圖,再圖生影片的理解最好,但使用起來也複雜一些。

「定焦One」還對比了AI工具這半年來的進化速度。以即夢為例,和五個月前相比,人物真實感有明顯提高。

即夢之前生成的影片即夢之前生成的影片

綜上,在基礎功能上,Sora的表現還談不上驚豔。

2、進階功能:主要測試此次Sora發佈的新功能,也是本次Sora宣傳的重點。

多位從業者提及,Remix(重混)功能實現起來比較複雜,因此我們直接上難度測試了這一項,讓Sora將此前生成影片中的兔子替換成小狗,結果出現了胡蘿蔔或者小狗起飛的狀況。

看來,實際操作遠沒有樣片中絲滑。不過,也有從業者表示,實測中存在一定偶然因素,最終效果和提示詞、場景、風格的關係比較大。

結語

經過一番對比,不難發現,儘管Sora的發佈讓人震撼,但目前其實力還沒強到讓國內從業者恐慌的程度,大家對Sora的整體評價是,效果在預期之內。

生數科技投融資負責人樊家睿評價,相比今年2月份釋放的demo,Sora在模型效果方面,真實感上並沒有顯著變化。另外,結合多位網民實測反饋,Sora在長時間處理複雜動作時還存在一定困難,模擬物理世界時可能會犯錯。

至於它發佈的一系列新功能,從業者們見仁見智。

瀚皓科技CEO吳傑茜告訴「定焦One」,和Sora類似的Storyboard(故事板)、Style presets(風格預設)功能在FilmAction中已經實現,Blend(混合)功能最先在國外的AI生成影片工具Luma中亮相,主要原理是首尾幀生成,Re-cut(重新剪輯)功能底層依靠的是影片續寫,目前國內工具也已經具備。

不過,AI行業資深研究者江樹表示,此次Sora發佈的一些功能屬於獨家,國內的產品基本沒有。儘管從技術上來說並不新鮮,比如可靈的運動筆刷、首尾幀功能也能做到影片銜接和循環,但他覺得,Sora的實現方式比較高明。

他以Remix舉例,用戶想改變影片中的主體,國內基本是通過「替換關鍵幀」實現,但Sora的Remix不是,因為在直播演示中,猛獁像在變成機器人時,沙子揚起的細節都能與主體保持一致。

「或許Sora目前透露出的最大優勢是處理細節的連貫性。」江樹表示,他舉例,在直播演示中,機器人在沙漠中漫步,這一畫面從遠景到特寫,中間的轉換十分自然。Sora的空間感也不錯,攝像機繞著一個物體進行360度旋轉,每個角度下的細節都非常準確,這說明Sora對三維場景有較為完整的理解。

另一個加分項是產品體驗。江樹表示,Sora這次發佈的是一個從影片生成到製作成品的端到端的完整產品,不像之前ChatGPT發佈時只有一個對話框。

「Sora在基礎的文生影片、圖生影片以外,提供了一些提升影片創作體驗的功能,說明OpenAI確實更關注產品體驗了,」樊家睿覺得,Sora新功能的實現路徑非常明確,對於他們而言,背後不是技術實現難度問題,主要是時間問題。

接下來,AI生成影片賽道又要捲起來了。

本文來自微信公眾號 「定焦」(ID:dingjiaoone),作者:定焦One團隊,36氪經授權發佈。