字節跳動上線即夢AI,正式打響文生影片工具之戰
今年年初,OpenAI突然扔出了一顆深水炸彈——文生影片大模型Sora,它不僅能生成一分鐘的連貫、高清影片,且具有極強的仿真能力,也展現出了對物理世界的初步理解。一時間,關於國內AI行業又一次被甩開的焦慮也開始在網絡上蔓延。
可誰曾想到,僅僅半年時間過去,在Sora幾乎已經「查無此人」時,國內的文生影片模型已經開始了捉對廝殺。就在快手的可靈AI宣佈全面開放內測之後,日前字節跳動旗下剪映團隊研發的一站式AI創作平台「即夢AI」宣佈上架,並且與前者一樣,即夢AI也同步上線了付費會員體系。
為什麼當OpenAI的Sora還停留在PPT階段,反而是「中國版Sora」率先開始商業化運作呢?要說快手、字節跳動的AI研發能力碾壓OpenAI顯然並不現實,畢竟字節跳動的豆包、快手的快意還比不了OpenAI的GPT-4o。所以真正的原因,或許是Sora只是OpenAI當時狙擊GoogleGemini 1.5的一個工具,而對於快手和抖音這兩大短影片平台而言,文生影片模型即夢AI、可靈AI的意義非凡。
為什麼快手、字節跳動的文生影片大模型會如此迅速的落地?Sora給業界帶來的啟示無疑是一切的起點。在Sora之前,業界最好的文生影片產品Runway、Pika,都只能做到生成一段不到十秒的影片,與其說它們生成的是影片,還不如說是一段GIF。直到Sora實現了生成連貫的一分鐘影片,且展現出在多角度多鏡頭切換中保持一致性,以及遵循現實世界物理規律的能力。
其實Sora採用的Diffusion Transformer架構是這一切的根源,OpenAI創造性地將訓練大模型的Transformer架構融入到了Diffusion擴散模型中,為圖像影片等多模態數據找到了適合Transformer架構的訓練方式。在解決了從零到一的問題之後,如何將文生影片模型商業化就變成了工程問題,也就有了即夢AI和可靈AI的青出於藍而勝於藍。
對於OpenAI而言,他們的使命是實現AGI,Sora至是秀肌肉的一個工具,而快手和字節跳動做文生影片則是為核心業務短影片服務。這也是Sora已經沒有了下文,而可靈AI、即夢AI後來者居上的重要原因之一。畢竟對於短影片平台而言,文生影片工具意義重大,事實上可靈AI和即夢AI的正面對決一如五年前的影片編輯工具之爭。
此前在2019年夏季,抖音的剪映和快手的快影兩款影片編輯應用同一時間迎來了爆髮式增長,再算上一年後B站上線的必剪,三大以UGC內容起家的影片平台,不約而同的搞起了影片編輯產品。而影片編輯工具之爭背後,則是從2019年開始隨著流量紅利的消失,影片網站開始從UGC過渡到PUGC時代,這一時期抖音、快手、B站也紛紛搞起了對自己平台上創作者的培訓。
問題在於,給創作者辦培訓班固然有效,但平台的人手面對於海量的創作者群體無疑是捉襟見肘。互聯網廠商寶貴的人薪金源顯然不是這樣用的,通過技術手段來解決問題才是他們的法寶。因此抖音、快手開始思考,如何通過技術手段提升用戶製作短影片的效率和質量,從而讓更多的優質內容湧現。
現實也確實如抖音、快手,以及B站所想,剪映等影片編輯工具通過提供模板、濾鏡、主題等模塊化工具,成功拉低了創作影片內容的難度,讓更多人有了輸出內容的能力。參與創作的人多了,出現優質內容的概率自然也就更高。
只可惜,即便剪映、快影已經做到了比Adobe Premiere Pro、Vegas Pro等專業級影片編輯軟件更傻瓜化,每一個功能都提供了影片講解,但依然還存在一定的上手難度、距離零門檻尚有一段距離。隨著微信影片號進入短影片這個賽道,分蛋糕的廠商又多了一家,以至於抖音和快手吸引用戶停留的壓力變得更大了。
但AI大模型的出現,就給了抖音和快手實現「人人皆是創作者」的機會。畢竟文生影片大模型的賣點,就是可以通過文字生成一段影片,用戶不需要懂得任何影片剪輯的知識和技巧,直接就能把文字腳本變成影片。那麼這一特質最適合什麼樣的創作者呢?當然是還遺留在微信公眾號、知乎,以及各大新媒體平台的圖文創作者了。
沒錯,圖片創作者向影片創作者轉型是一個從幾年前就出現的現象,可直到目前為止,微信公眾號、知乎,乃至小紅書上依然有大量的圖文創作者在堅守陣地。短影片平台為了留住這批圖文創作者不惜開闢圖文專區,但短影片和圖文終究是不同的。當年的剪映橫空出世,就已經讓有誌於影片創作的用戶加入到短影片創作生態中,所以這一次AI工具面向的並不是他們。
有了可靈AI、即夢AI,圖文創作者就可以直接使用文字來生成想要的影片內容,或者乾脆為文字生成一段符合情境的影片。對於沒有接觸過影片製作的內容創作者來說,可靈AI、即夢AI的效果遠比以往的文生影片工具更加強大。比如,知乎方面就曾在2020年搞了一個圖文可快速生成影片的工具,但由於效果差強人意,用戶根本不買賬。
以往的文生影片工具都是借助自然語言識別(NLP)技術來進行斷句和配音,再利用語義圖片識別(OCR)技術來通過標籤進行智能配圖,以實現將平面的圖文轉化為更為立體的影片。但這種影片的效果和原生影片可謂是天差地別,只能解決有無問題,卻做不到商業化。
經過過去數月的測試,可靈AI已經證明了它們生成的影片和人類借助編輯工具創作的影片,沒有拉開質的差距。既然,可靈AI、即夢AI已經具備商業化的水平,同時抖音、快手又需要更多的內容創作者來豐富內容生態,所以一如五年前打響的影片編輯工具爭奪戰,現在的AI文生影片工具之戰也拉開了帷幕。
本文來自微信公眾號「三易生活」(ID:IT-3eLife),作者:三易菌,36氪經授權發佈。