Sora如何降維打擊其他文生影片大模型?記者實測對比

OpenAI的文生影片大模型Sora已經發佈兩天,其衝擊力依然不減。

2月18日,新京報貝殼財經記者進行了Sora與其他文生影片大模型的對比測試,發現Sora在時間和影片生成質量上均對「同行」產生了「降維打擊」:其他文生影片大模型僅能生成3至4秒的影片,而Sora生成的影片時間最多可達1分鐘,且景物也更加清晰穩定、符合描述。

不過,隨著越來越多使用Sora製作的影片出現以及部分技術細節的公開,業界開始對其進行全方位審視,其中,讚揚和驚歎聲不少,但Sora生成的影片也被發現存在諸多不合理之處。

文生影片對比實測:Sora從「動圖」升級到「短片」

「一個時尚的女人走在東京的街道上,街道上充滿了溫暖發光的霓虹燈和生動的城市標誌。她穿著一件黑色的皮夾克,一件紅色的長裙,一雙黑色的靴子,還帶著一個黑色的錢包。她戴著太陽鏡,塗著紅色的口紅。她自信而隨意地走著。街道是潮濕和反光的,創造了一個五顏六色的燈的鏡面效果。許多行人走來走去。」這是OpenAI官網介紹Sora時,出現的第一組提示詞。

在OpenAI推出Sora之前,文生影片領域的創業公司主要包括Pika、Runway等,為了驗證Sora的能力,新京報貝殼財經記者將上述同樣的提示詞輸入Pika文生影片模型,以及Runway旗下的Gen-2video文生影片模型進行了實測。

在相同提示詞下,新京報貝殼財經記者使用Pika生成的影片截圖。在相同提示詞下,新京報貝殼財經記者使用Pika生成的影片截圖。
在相同提示詞下,新京報貝殼財經記者使用runway旗下Gen-2video生成的影片截圖。在相同提示詞下,新京報貝殼財經記者使用runway旗下Gen-2video生成的影片截圖。

OpenAI官網上Sora生成的影片。

貝殼財經記者發現,在相同的提示詞下,Pika僅能生成3秒的影片,Gen-2video則可以生成4秒的影片。其中,Pika的影片為「時尚女人」的背影,無法體現她「戴著太陽鏡,塗著紅色的口紅」的描述,不過對於提示詞中「潮濕反光的街道和五顏六色燈的鏡面效果」體現得較好,但整體上影片較為模糊。

Gen-2video則跳出了「無法輸入這麼多提示詞」的彈窗,並根據能夠輸入的部分生成了一個4秒的影片,該影片相比Pika顯然精細很多,也符合提示詞描述的人物形象,包括「街道、人群、黑錢包」等。

但可以發現,無論是Pika還是Gen-2video,都忽略了「一件紅色的長裙」這個細節,且貝殼財經記者通過觀看影片發現,這兩段影片仍能看出AI生成的影子,特別是Gen-2video的人物臉部,有細微的形變,這正是AI生成影片的特點之一:難以始終保持同一人物的連貫性。

而Sora不僅體現了提示詞中的全部細節,而且還很好地保持了人物的連貫性,使得該影片幾乎可以「以假亂真」。當然,如果仔細觀察,可以發現該影片中人物的腳步在某幾個幀會出現不自然的扭曲,以及該影片中的背景廣告牌雖然酷似日文,但由於目前AI還無法直接在影片中「認識」文字,其只能生成似是而非的「日文」,這都是AI生成影片的特點之一。

但即便如此,Sora還是用事實顯現出了同其他文生影片大模型的代差。

在Google和Twitter都有從業經歷的AI創業者Gabor Cselle也發佈了使用相同提示詞,在其他四個文生影片模型中「複現」Sora「穿過下雪、櫻花飛舞的東京街道……」的場景,並表示「其他模型達不到能和Sora比較的效果」。

Gabor Cselle社交帳號截圖。Gabor Cselle社交帳號截圖。

在國內,也有不少AI從業者直觀地感受到了Sora帶來的衝擊。

清華大學瀋陽教授團隊一直聚焦AI在各個領域的應用,並也一直在使用AI模型進行文生影片的操作。2月17日,他在朋友圈發佈了一條團隊成員花兩天製作的「半失敗」AI影片,並表示「從這裏可以看出和Sora的差距,我讓她暫時放棄這個作品,等算法升級再重做一下。」

對於Sora出現後,使用AI製作影片的工作能否繼續,瀋陽回覆貝殼財經記者「慢慢弄,往前挪唄」。

理解物理世界 顛覆影視、遊戲行業 Sora是「通用世界模型」嗎?

為何Sora能夠在影片生成的質量上明顯領先同業產品?OpenAI在官方網站上表示,Sora是能夠理解和模擬現實世界的模型的基礎,相信這一能力將是實現通用人工智能的重要里程碑。不過,Sora還存在很多不完善之處,仍然處於世界模型研究應用的初期階段。

什麼是世界模型?貝殼財經瞭解到,實際上runway公司在去年12月就提出過要開發通用世界模型(General World Model),用其旗下的Gen-2模型來模擬整個世界,「我們相信,人工智能的下一個重大進步將來自理解視覺世界及其動態的系統,這就是為什麼我們要圍繞通用世界模型開始一項新的長期研究工作。」

從效果上看,目前OpenAI已經通過Sora部分做到了這一點,因為只有理解物理世界的運行法則,文生影片模型才能創造出更加逼真的影片。英偉達高級科學家Jim Fan就對此表示,Sora是一個數據驅動的物理引擎,「它是對許多世界的模擬,無論是真實的,還是虛構的。該模擬器通過去噪和梯度學習方式,學習了複雜的渲染、直觀的物理、長期推理和語義理解。」

而理解現實世界的物理法則,也正是通往通用人工智能這一「終極目標」的必經之路。

對此,不少科技圈名人都發出了驚歎,馬斯克直接在社交平台上發佈短評「GG世界」(GG是網絡遊戲的用語之一,原指遊戲結束時玩家互相致意,後引申為「遊戲結束」)。

360公司董事長周鴻禕則直接在朋友圈發文稱,一旦AI能夠接上攝像頭,觀看並理解世界上所有的電影,它對世界的理解能力將遠遠超過僅僅通過文字學習所能達到的水平。在這種情況下,實現通用人工智能不再是遙不可及的夢想。周鴻禕甚至預測,這一天可能在一兩年內就會到來,而不是十年或二十年。

在現實層面,有更多人擔心文生影片大模型可能直接衝擊影視和遊戲行業。美國舊金山早期投資人Zak Kukoff預測,在5年內,一個不到5人的團隊將可能用文生影片模型製作出一部票房收入超過5000萬美元的電影。

值得注意的是,日前大火的遊戲《幻獸帕魯》的開發團隊就僅有4人,有許多人質疑該團隊使用了AI生成技術製作遊戲角色,以節省成本。而根據OpenAI 發佈的最新Sora技術報告,Sora能夠模擬影片遊戲的數字化過程,Sora能在控制 Minecraft 遊戲角色進行基本操作的同時,高質量動態渲染遊戲世界。這意味著,個人開發製作遊戲的門檻可能會被進一步降低。

前阿里巴巴副總裁,Lepton AI公司創始人賈揚清則直接評價Sora「真的非常牛」,他表示Sora的問世可能會給對作OpenAI的公司帶來一波被大廠FOMO(害怕錯過機會而導致的收購)收購的機會。賈揚清預測,大模型市場長期仍將呈現閉源寡頭的格局,開源大模型仍然需要一段時間才能追趕上,而從算法小廠的角度來看,要麼在算法上與OpenAI媲美,要麼深耕垂直領域的應用,要麼選擇開源道路;最後,基礎設施的需求將繼續猛增。

記者聯繫郵箱:luoyidan@xjbnews.com

新京報貝殼財經記者 羅亦丹

編輯 嶽彩周

校對 盧茜