預見·科技 | Sora還沒開放訪問國產文生視頻模型只花15分鐘就幫你做好了彙報視頻

03月08日 16:31 新浪網 tech-auto-hilite

封面新聞記者歐陽宏宇

不久前，OpenAI新發佈的文生視頻大模型Sora再度在全球範圍內掀起熱潮。由於該大模型可生成最長1分鐘的視頻，超過時下主流產品，進而引發行業感歎，“人人都是視頻創作者的時刻即將到來”。

事實上，在Sora推出前，國內AI團隊已在“文生視頻”領域有所跟進，百度、清華大學等科技公司、高校的多個“文生視頻”專利也在近日公開；魔琺科技更是在日前正式發佈了多款文生3D視頻消費級產品“有言”。用戶只需提供文字等素材就可以生成視頻時長達數分鐘的3D視頻，並且還能一鍵生成：場景、運鏡、動畫、聲音等。

那麼，國產的文生視頻消費級產品到底好不好用？生成的視頻究竟是什麼樣子？記者進行了測試發現，與Srao不同，用戶使用該大模型創作的視頻，主要為針對營銷、培訓等場景的3D數字虛擬人主播AIGC視頻。用戶可以對虛擬人主播進行定製化的“捏臉”，並設置其口播內容以及視頻中需要呈現的圖片、文字、配樂等，每次視頻生成需耗時10多分鐘，其流程與製作一份PPT類似。

記者測試國產文生視頻AIGC平台

不到15分鐘便可得到視頻成片

和文心一言、通義千問等大語言模型不同，進入文生視頻大模型後，頁面中會有多個會有模板可供選擇。選擇好視頻格式後，即可進入視頻生成頁面。

這時的頁面則更像是視頻剪輯軟件，左側為模板、素材、鏡頭等編輯窗口，右側則是視頻預覽畫面和文本輸入、虛擬人設置等界面。

記者以“文生視頻介紹”為主題，進行了測試：

首先，需要對虛擬演播室、3D虛擬人物形象進行設置，可以看到大模型上預設了多個不同風格的人物形象，用戶甚至可以從性別、年齡、膚色、長相、穿衣風格、音色等標籤進行精細化設置。記者隨即“捏臉”了一位溫柔知性，穿休閑裝的亞裔中年男性，並把音色設置為說中文的激昂男主講人。

設置完成後，記者又上傳了一些與文生視頻AI大模型相關的圖片以及文字介紹。上傳好的素材只需點擊一下就能添加到視頻軌道上，用戶還可以為這段素材配上文字介紹，並調節虛擬人口播時的節奏：整個編輯過程甚至比製作一頁PPT還要簡單。

點擊“一鍵生成”，只需十幾秒AI大模型就製作出了草稿視頻，隨後便可以對視頻的鏡頭景別。再等待幾分鐘視頻渲染後，視頻就製作完成了。這時候，用戶還可以使用AI預設的花字、音樂、音效對視頻進行進一步美化。

從新建演播室、虛擬主播，到輸出成片耗時不到15分鐘，記者最終也得到了一段時長為45秒的短視頻，其品質效果堪比專業團隊在攝影棚里拍出的路演大片。

文生視頻商業化尚待探索

AIGC視頻創作平台已有落地場景

據Google此前發佈的論文顯示，視頻就是一系列圖像，最理想的效果就是用戶給出提示詞，系統自動生成任何風格的對應視頻。但在實際情況中，生成一個連貫的長視頻並沒有那麼容易。

“在該項任務中，可用的高質量數據非常少，且任務本身的計算需求又很大。”複旦大學計算機科學技術學院教授肖仰華認為，Sora在技術上的突破並不大，但在一定程度上解決了時空的一致性的問題，並且在時長上有了較大提升。與此同時，Sora尚未開放訪問，何時能實現商業化落地也是未知數。

和Gen-2、SVD-XT、Pika等第一代文生視頻AI大模型產品相比，Sora在畫面真實度、清晰度以及長度等多個方面已有顯著提升，但對內容創作者特別重要或者基礎的內容可控性和可編輯上，依然面臨著較大的挑戰。

即便和Sora製作的視頻在質量上有差距，國產文生視頻AI大模型也已做出了特色，甚至在產業端找到結合點。此前，阿里達摩院已放出了“文本生成視頻大模型”開源測試版本，而虛擬主播AIGC視頻也已具備現實應用場景。

有業內人士分析稱，Sora路徑特別不適合“高信息密度”以及”內容需要精準控制“的視頻內容，即使解決了它現在一有問題，距真實實現產品化也有距離。“由於產品發佈會，工作彙報，產品介紹視頻，知識分享等場景視頻的信息密度高，內容需要精確控制，這正是AIGC一站式3D視頻創作平台可以發揮優勢的方向。”