文生影片大模型,短影片的過彎點?

隨著今年初Sora的橫空出世,這個可以創建長達一分鐘影片的文生影片模型就成為了國內廠商追逐的焦點。

6月初,快手自研的影片生成大模型「可靈」正式上線。可靈AI採用了與Sora相似的技術路線,能夠生成具有合理運動和模擬物理世界特性的影片。

截至目前,已有超百萬人排隊申請內測資格,其中超30萬人已獲得試用資格,累計生成超700萬條短影片。近日,可靈AI終於宣佈全面開放內測,同時上線付費會員體系。

其他廠商也在迅速跟進。7月,智譜AI 推出AI生成影片模型智譜清言,用戶可在30秒內免費生成6秒影片。

目前來看,被稱為「國產版Sora」的可靈AI不僅熱度頗高,用戶對其評價也不錯,在Sora橫空出世卻遲遲未有完善產品落地的背景下,可靈AI甚至被視為「業內最佳」。

文生影片大模型目前效果如何?為什麼廠商們紛紛開始卷文生影片大模型?對於短影片的競爭格局會有哪些影響?

劍走偏鋒,「可靈」大力出奇蹟

可靈AI上線至今還不夠兩個月,已經經歷了三次迭代更新,從最開始的文生影片,到現在已可支持圖生影片、影片續寫、多尺寸選擇,在生成細節、構圖、運鏡美觀性、光影方面都有很大改善。

據快手視覺生成與互動中心負責人萬鵬飛表示, 可靈AI生成的影片解像度高達1080p,時長最高可達2分鐘(幀率30fps),單次文生影片時長已增至10秒,這一指標已超越了目前市場上大多數影片生成工具。

當下,佈局文生影片賽道的大廠和創業公司並不少,不過大部分都沒有公佈文生影片模型的參數量級,快手也表示「不便透露」。因此,各企業均主要圍繞生成影片的時長、影片的解像度等指標展開比拚。

目前來看,能實現「分鐘級」內容生產能力的,之前僅有Sora一顆獨苗,能夠生成長達60秒的高清影片,現在可靈AI則刷新了這一指標,將生成影片時長拉長至2分鐘。

縱觀其它同類競品,騰訊宣佈旗下文生影片模型生成時長達到了16秒,預計在三季度達到20秒;字節旗「即夢」最長支持生成12秒影片;美國創企Runway支持生成10秒左右的影片,最多可延長至18秒,但大部分文生影片產品的生成時長都在10秒左右。

所以,光看「時長」這一點,可靈AI確實暫時處於領先狀態;而從「生成內容」這點來看,大部分用戶的評價均是「遠超預期」。

比如跟Runway的Gen-3相比,其只有文生影片功能,但沒有圖生影片功能;而可靈AI通過迭代新增的運鏡控制、首尾幀自定義等功能,也獲得了用戶的一致好評。

當然,可靈AI也還稱不上「完美」,有用戶認為其對藝術風格、攝影語言容易把握不準確,但在「吃東西」這一領域,可靈AI的表現要比其他產品更優秀,這可能也跟快手短影片更擅長真實畫風有關。

雖然,目前還不能說可靈AI已經能在業內「一騎絕塵」,但至少已做到了「一鳴驚人」,這樣的成績背後,則是快手版的「大力出奇蹟」。

程序員出身的快手CEO程一笑,早在去年初快手就啟動新的AI戰略,聚焦大語言模型、視覺生成模型、多模態模型等方向。

去年10月,快手重啟了一個名為「噗嘰」的項目,是一款將靜態圖片生成Gif表情包的工具軟件,這也是可靈AI的前身。

真正的變量則是今年初Sora的重磅發佈,這讓萬鵬看到了DiT(新型影片生成架構)的可行性,快手才開始探索打造「中國版Sora」。

據自媒體「矽星人Pro」報導,可靈項目開始後不到一個月,就獲得了程一笑的支持,上升為公司戰略級項目。可靈團隊也很清楚,項目就是要趕在前面,搶先市場,否則就沒有意義。

可靈AI從3月立項到6月上線,僅僅花了3個月的時間,除了快手內部的資金、資源向其傾斜之外,技術大牛的加入也加速了可靈項目的研發創新,比如曾任騰訊AI實驗室高級研究員的王鑫濤加入了快手視覺生成與互動中心。

引用知乎用戶「小林不加班」的回答,可靈AI採用了類Sora的技術路線,並結合了多項自研創新技術,對影片處理、生成能力以及空間壓縮,這三個問題進行優化,使得模型效率和性能提高、能夠捕捉到更寬廣的特徵範圍,模型對細節的識別能力也隨之增強。

大廠加速,押注下一個爆款

想做「中國版Sora」的可不止快手,據晚點LatePost報導,今年一季度,字節 AI 研發團隊將影片生成模型的優先級排在了前面;百度在年初推出的影片生成模型UniVG,也被業內視為與Runway Gen-2相當。

另外,文生影片領域開源產品的能力也在提升。今年3月,潞晨科技開源了旗下Open-Sora 1.0影片生成模型,目前能單次生成大概20秒的影片,隨著開源平台的普及和能力提升,未來或許還會有更多文生影片應用落地。當然,還有業內公認最強的對手Sora。

廠商們之所以紛紛下注,一方面是因為行業內確實存在海量的需求。相比於語言,影片和圖片更接近文字,國內一些企業包括美圖等,早已支持「一鍵AI美顏」的功能。

另一方面,隨著「百模大戰」逐漸退燒,當下的大模型企業已經不再盲目追求通用大模型的規模,而是更傾向將大模型集成到產品和服務,解決實際問題並創造真正的商業價值。

而快手之所以能夠先拔頭籌,首先是因為快手作為頭部短影片平台,積累了大量的影片內容,同時還通過智能算法對這些內容進行細緻的分類和標註,這些影片數據已經被「清洗乾淨」,可以直接供可靈AI使用。

而在硬件儲備方面,一直以來,快手與英偉達就基於影片處理有著深度合作。早在2019年,快手便聯手英偉達部署GPU計算基礎架構,能讓業務性能平均增長了2倍,成本較之前節省了 30% 以上。快手在算力方面的未雨綢繆,也為可靈項目的快速推進打下了基礎。

最後,當然是快手給了可靈項目最大的資源協調,有別於字節、阿里、騰訊等大廠,它們不僅要投入通用大模型的研發,旗下也有不止一個AIGC項目,「桃子」那麼多,哪個最先成熟,似乎還得看時機。

不過,即便可靈AI已經「先跑一步」,也並不意味著其就能安枕無憂。一來,目前在文生影片領域並不存在斷層式的技術領先。

愛詩科技創始人王長虎表示,Sora最重要的貢獻是驗證了影片生成的規模定律。今年以來,文生影片領域之所以能夠快速發展,正是因為Sora的出現驗證出了一條技術可行性的道路。

但既然文生影片在技術上沒有秘密,接下來類似產品拚的無非是算力規模、訓練數據等。業內人士預計,目前各家大模型廠商都具備了影片生成能力,只是礙於算力成本以及影片效果而未有全面鋪開,但這也不過是時間的問題。

二來,若只論算力,快手在國內只算是第二梯隊。中信證券曾簡單估算,生成一個60幀的影片(約6至8秒),Sora要生成至少約120萬個token,推理算力需求遠大於文生文。

如果可靈AI持續迭代,將會對快手提出更高的算力要求,在全面公測以後,快手還能否繼續向用戶增加生成影片的時間,等待時間會否越來越長,其算力「天花板」到底在哪裡,恐怕只有快手自己知道了。

事實上,包括快手在內,國內同行在文生影片領域均採取較為現實的推進方式,即保持研發進度,階段性地產出落地。簡單來說,就是先做產品再優化,趕進度先拿下市場。

快手試水商業化,意在生態

Similarweb數據顯示,可靈AI在6月初開放之後,網站用戶流量呈現上升態勢,7月用戶峰值接近10萬DAU水平。月狐iApp數據顯示,接入可靈AI的快影App,7月後周均DAU較6月初提升了100萬左右。

可靈AI用戶快速增長背後,一方面是因為用戶對文生影片的「好奇」。月狐數據對與可靈AI相關的社交媒體用戶評論數據進行了分析,用戶情緒主要表現為好奇、興奮、期待和滿意。

另一方面也少不了快手的助推。比如在快手平台中,帶#可靈#相關話題標籤的作品會獲得更多流量扶持;可靈AI也推出了AI相關的內容創作活動,包括可靈AI x 快影影片創作大賽、複活古畫定向話題投稿活動。

用戶規模是產品商業化的土壤,基於此,外界對於可靈商業化的想像空間也被進一步打開。目前,可靈AI已經上線了付費會員體系,分為黃金、鉑金、鑽石三個級別,月卡價格分別為66元、266元和666元,對應生成約66個、300個或800個標準影片。

對比Runway Gen-3 Alpha最低12美元/月;Luma Dream Machine標準版29.99 美元/120次的價格,可靈AI的定價並不算高。而且,據接近快手人士透露,可靈AI暫無商業化計劃。

這就意味著通過會員模式來盈利,還不是可靈的首要目的。萬鵬曾公開表示,(可靈出現以後),影片創作的門檻和效果的ROI大幅度提升,影片創作者和消費者界限逐漸模糊,越來越多消費者變成創作者,對於影片創作生態的繁榮是非常有價值的。

以最近的《山海奇鏡之劈波斬浪》和《三星堆:未來啟示錄》為例,前者是抖音和博納合作的AI科幻短劇,後者則是快手原創的AI奇幻短劇。毫無疑問,AI技術可以極大程度的豐富平台內容。

因此,爭奪更多內容創作者,繁榮快手平台生態,才是可靈AI的當務之急。據快手2024年一季度財報顯示,快手實際月活人數為6.97億,較上一季度環比下降0.4%,呈現流失趨勢。

通過引入可靈AI,不僅能幫助創作者降低創作門檻,提升短影片製作質量和效率,也能為快手的內容生態注入新鮮能量。比如在B站等內容平台中,用AI二創影片就成為了熱門話題,在快手平台也有不少關於影視的梗圖創作。

但在幫助內容創作者變現的同時,快手也打好了「提前量」。今年6月,快手電商發佈了使用AIGC能力直播的倡議公告,鼓勵商家/達人和老鐵們進行良好互動,但對於使用AIGC能力輔助創作的內容相較於其他實時直播內容,平台不會給予特殊的流量扶持,避免商家濫用AIGC帶來大量低質量影片內容。

或許,可靈AI不是快手內容生態的「靈丹妙藥」,但有噱頭就有熱度,目前快手需要的正是這份「繁榮」。

近年,快手的直播收入出現了下滑的趨勢,但今年一季度其廣告、電商業務都有雙位數的增長,這意味著快手從去年底開始放開泛貨架場景流量入口的策略已經起效。但貨架電商的核心是搜索,這就驅使快手不得不將內容繁榮放在第一位,只有更多的人氣,才會有更多的搜索。

接下來,探索新的內容形態將會是AIGC時代下的短影片發展的必經之路,而快手的「一小步」,將是整個短影片行業的「起步」。

雖然快手似乎無意加速商業化,但可靈AI卻一定需要商業化,畢竟燒錢以億級起算的大模型是個無底洞的吞金猛獸,快手也不能無限地提供子彈。

將目光從C端轉移到B端或更有可能,據內部人士透露,可靈AI將部分內測名額給了電商合作比較頻繁的MCN機構如遙望科技和大品牌,或許也有測試電商行業素材的考慮。

有業內人士表示,拍攝一條高質量3D動畫影片,成本要按秒來計算,幾十萬成本也下不來,而可靈、Sora的出現可以起到增強作用,比如影片某個鏡頭不行就用AI影片來填充。

當然,要實現這樣的效果,整個影片生產大模型行業還需要持續進化,但對於「可靈們」來說,這樣的路徑才更為現實,不僅能夠改變短影片生態,還可以賦能產業端,比如通過學習爆款影片的文本結構,一鍵生成與商家產品素材匹配的影片。

目前,各大廠都在卷大模型,但誠如百度李彥宏所言,應用才是大模型落地的根本。「可靈們」的第一步是繁榮內容生態,但更關鍵的卻是第二步,如何讓大模型賦能生態,為平台帶來增量效益,才是「可靈們」要思考的問題。

本文來自微信公眾號「伯虎財經」(ID:bohuFN),作者:伯虎團隊,36氪經授權發佈。