預見·科技 | Sora還沒開放訪問 國產文生視頻模型只花15分鐘就幫你做好了彙報視頻
封面新聞記者 歐陽宏宇
不久前,OpenAI新發佈的文生視頻大模型Sora再度在全球範圍內掀起熱潮。由於該大模型可生成最長1分鐘的視頻,超過時下主流產品,進而引發行業感歎,“人人都是視頻創作者的時刻即將到來”。
事實上,在Sora推出前,國內AI團隊已在“文生視頻”領域有所跟進,百度、清華大學等科技公司、高校的多個“文生視頻”專利也在近日公開;魔琺科技更是在日前正式發佈了多款文生3D視頻消費級產品“有言”。用戶只需提供文字等素材就可以生成視頻時長達數分鐘的3D視頻,並且還能一鍵生成:場景、運鏡、動畫、聲音等。
那麼,國產的文生視頻消費級產品到底好不好用?生成的視頻究竟是什麼樣子?記者進行了測試發現,與Srao不同,用戶使用該大模型創作的視頻,主要為針對營銷、培訓等場景的3D數字虛擬人主播AIGC視頻。用戶可以對虛擬人主播進行定製化的“捏臉”,並設置其口播內容以及視頻中需要呈現的圖片、文字、配樂等,每次視頻生成需耗時10多分鐘,其流程與製作一份PPT類似。
記者測試國產文生視頻AIGC平台
不到15分鐘便可得到視頻成片
和文心一言、通義千問等大語言模型不同,進入文生視頻大模型後,頁面中會有多個會有模板可供選擇。選擇好視頻格式後,即可進入視頻生成頁面。
這時的頁面則更像是視頻剪輯軟件,左側為模板、素材、鏡頭等編輯窗口,右側則是視頻預覽畫面和文本輸入、虛擬人設置等界面。
記者以“文生視頻介紹”為主題,進行了測試:
首先,需要對虛擬演播室、3D虛擬人物形象進行設置,可以看到大模型上預設了多個不同風格的人物形象,用戶甚至可以從性別、年齡、膚色、長相、穿衣風格、音色等標籤進行精細化設置。記者隨即“捏臉”了一位溫柔知性,穿休閑裝的亞裔中年男性,並把音色設置為說中文的激昂男主講人。
設置完成後,記者又上傳了一些與文生視頻AI大模型相關的圖片以及文字介紹。上傳好的素材只需點擊一下就能添加到視頻軌道上,用戶還可以為這段素材配上文字介紹,並調節虛擬人口播時的節奏:整個編輯過程甚至比製作一頁PPT還要簡單。
點擊“一鍵生成”,只需十幾秒AI大模型就製作出了草稿視頻,隨後便可以對視頻的鏡頭景別。再等待幾分鐘視頻渲染後,視頻就製作完成了。這時候,用戶還可以使用AI預設的花字、音樂、音效對視頻進行進一步美化。
從新建演播室、虛擬主播,到輸出成片耗時不到15分鐘,記者最終也得到了一段時長為45秒的短視頻,其品質效果堪比專業團隊在攝影棚里拍出的路演大片。
文生視頻商業化尚待探索
AIGC視頻創作平台已有落地場景
據Google此前發佈的論文顯示,視頻就是一系列圖像,最理想的效果就是用戶給出提示詞,系統自動生成任何風格的對應視頻。但在實際情況中,生成一個連貫的長視頻並沒有那麼容易。
“在該項任務中,可用的高質量數據非常少,且任務本身的計算需求又很大。”複旦大學計算機科學技術學院教授肖仰華認為,Sora在技術上的突破並不大,但在一定程度上解決了時空的一致性的問題,並且在時長上有了較大提升。與此同時,Sora尚未開放訪問,何時能實現商業化落地也是未知數。
和Gen-2、SVD-XT、Pika等第一代文生視頻AI大模型產品相比,Sora在畫面真實度、清晰度以及長度等多個方面已有顯著提升,但對內容創作者特別重要或者基礎的內容可控性和可編輯上,依然面臨著較大的挑戰。
即便和Sora製作的視頻在質量上有差距,國產文生視頻AI大模型也已做出了特色,甚至在產業端找到結合點。此前,阿里達摩院已放出了“文本生成視頻大模型”開源測試版本,而虛擬主播AIGC視頻也已具備現實應用場景。
有業內人士分析稱,Sora路徑特別不適合“高信息密度”以及”內容需要精準控制“的視頻內容,即使解決了它現在一有問題,距真實實現產品化也有距離。“由於產品發佈會,工作彙報,產品介紹視頻,知識分享等場景視頻的信息密度高,內容需要精確控制,這正是AIGC一站式3D視頻創作平台可以發揮優勢的方向。”