智譜AI CEO張鵬:AI生成影片無法徹底替代影視行業,真正進入電影尚需時日|鈦媒體AGI
7月26日上午,國內AI大模型獨角獸智譜AI在北京發佈 AI 影片生成技術「清影(Ying)」,支持文生影片、圖生影片。並且,清影此次面向所有用戶全量上線在旗下「智譜清言」App,無需預約,人人可用。
據悉,清影基於智譜自研的影片生成大模型CogVideoX,通過技術優化,智譜生成式影片模型的推理速度提升了 6 倍,將6秒影片的生成時間縮短到了理論上的30秒。
同時,影片參數方面,清影目前支持生成6秒時長的 AI 影片,解像度為1440×960。而技術層面,清影並非完全沿用因Sora而成為了某種「共識」的DiT架構,而是「智譜自研的一個將文本、時間、空間三個維度全部融合起來的Transformer架構」。
另外,針對內容連貫性問題,智譜AI自主研發了一套高效的三維變分自編碼器結構(3D VAE),能夠將原始影片數據壓縮至原始大小的2%,顯著降低了影片擴散生成模型的訓練成本和難度。而在可控性方面,智譜AI打造了一款端到端的影片理解模型,該模型能夠為大量影片數據生成精確且內容相關的描述。這一創新增強了模型對文本的理解和對指令的遵循能力,確保生成的影片更加符合用戶的輸入需求,
目前,CogVideoX 模型目前已在智譜清言的PC端、移動應用端以及小程序端以「清影」功能上線,不僅支持快速生成、高效的指令遵循能力,以及更強的內容連貫性、畫面調度靈活性。
具體來說,清言提供文生影片和圖生影片兩種模式:
-
文生影片適合用於腦洞大開的場景:小狗在指尖跳舞,海豚飛向深空,宇宙為你閃爍,不論是多麼複雜抽像的畫面,只要用一兩句話描述想像中的場景,清言都能用精美的畫面為你一一呈現。
-
圖生影片可以發掘原有圖片的更多趣味:輸入圖片和簡單的描述,即可讓圖片動起來。你可以讓舊照片里的人動起來,讓回憶更加動感真切;也讓名畫、劇照里的角色做些腦洞大開的事情。
付費模式層面,正選測試期間,所有用戶均可免費使用。而加速時間的話,付費5元,解鎖一天(24小時)的高速通道權益;付費199元,解鎖一年的付費高速通道權益。
智譜AI CEO張鵬在會上表示,AI 多模態技術來源於人類大腦的工作方式。作為一個複雜的系統認知功能,人類大腦是通過各腦區相互配合完成的,包括文字、視覺、聽覺等,所以,多模態的感知和理解與人類認知能力的發展有非常密切的關係,作為一家目標是AGI的人工智能公司,智譜一直以來都非常重視多模態技術。
「AI行業對多模態模型的探索還處於初級階段,我們還會繼續努力,為大家提供更好的模型,更好的產品。」張鵬表示。
張鵬坦言,現有的 AI 影片生成技術無法徹底替代影視行業,更多是輔助的作用,但 AI 對於影視行業的變化是有積極意義的。目前來講,把AI直接用在面向觀眾的影視生產過程當中可能還是不太夠,最多是做小規模的創作。「如果 AI 真正要達到改變電影的製作等更高要求的任務,可能還得要有一段路去走。」
張鵬認為,目前 AI 影片主要是做線上電商營銷、短影片自媒體需求等。「但是,我相信肯定不僅止於這些客戶。目前是一個階段性的東西,下一步往哪個方向發展,哪些事情會成為技術突破、落地應用最關鍵的問題,需要我們不斷形成從上到下、至下而上這樣一個閉環。」
談到 AI 影片生成的商業化,張鵬表示,目前智譜清影的商業化還處於早期,更多是通過API進行付費。
「清影功能上線,就像剛才開場時候給大家介紹一樣,主要是階段性成果,要說它多麼完美還不是,還需要階段性解決,給大家彙報一下我們的進展,讓大家體驗一下目前影片生成這樣的事情在每人可用的前提下能做到什麼程度,而不是關在實驗室里或者在很小的概率上生成出什麼東西。從現在這個階段來說,無論是2C還是2B,純粹走向大規模商業化還比較早期。」張鵬稱。
張鵬表示,目前影片生成的算力、算法成本都很高。「的確,做大模型這件事太燒錢了,而且確實也面臨市場上的需求,你要商業化落地,所以,我們是分層次去做,最基礎的技術突破創新是我們消耗資源、算力方面最大的一部分,商業化層面是在這個基礎之上推進的。」
張鵬強調,「我相信,所有的友商把這個東西不開放出來,很大程度也是因為成本的問題,頂不頂得住很多人來用,這也是一個選擇。」
因此,張鵬指出,如果想要做好 AI 生影片的商業化,可控是必要條件,需要花大力氣去做,從而精準表達好創作者的意圖。「如果它能夠非常好的理解簡單文字背後深層次的意圖和語義,就能做到很好的可控。」
談到與Sora的差距,張鵬承認,清影還是一個初步的階段性成果,目前還達不到像Sora演示的長影片效果,需要做更多的努力。
「我們從來很坦誠,承認我們和OpenAI、世界頂級水平之間的差距。但是,走的這條路還得自己走,我們一直也在走自己的路。很多時候,我們是在不斷用自己的方式往前追趕,比如。怎麼把影片生成算力成本降下來、響應速度提升上去、讓所有人可以用,所以,我們是在追求技術高度的同時,也同步追求技術的可普及性和成本,這也是我們團隊的一些特點。」張鵬表示。
談及與生態公司的競合關係,張鵬坦言,商業化過程當中,服務客戶過程中是智譜技術和產品核心能力驅動的,客戶需求、反饋是技術往前創新突破和邁進的驅動力,讓兩者形成比較好的閉環。無論是做2C產品,還是服務B端企業,都是同樣的思路。有些事情可能並不會在我們聚焦的方向,這個可能會交給生態里的合作夥伴或其他方面做,有些幫助我們完成閉環的,是我們自主做,(我們商業化)是這樣的方式。
展望下一步的超級App發展,張鵬向鈦媒體AGI強調,智譜持續把清言定位為「AI 助手」,幫你解決工作、學習、生活當中的實際問題,幫你做生產力效率提升、工作便利提升等方面的事情。
「我們認為,所謂的超級APP可能它不一定是‘超級’,我們也是循序漸進、在潛移默化過程當中讓大家真的習慣上使用這個工具,這也是一個很好的事情。所以,這可能並不一定是階躍式改變,而是潛移默化不斷變化。我們很期待,在這樣的 AI 時代通過效率(清言)工具,讓大家在不知不覺中改變自己的生活狀態,這也是我們倡導的人機協同的發展方向。」張鵬表示。
(本文正選於鈦媒體App,作者|林誌佳,編輯|胡潤峰)